多模态指代消解技术突破与模型架构解析

本文详细介绍某中心与加州大学联合研发的多模态指代消解模型,该模型在DSTC10挑战赛中夺冠。文章深入解析了基于VL-BERT的架构改进、图神经网络的应用、局部环境信息捕获机制,以及通过图像描述生成增强上下文理解的技术方案。

多模态指代消解技术突破

配备屏幕的语音交互设备(如某智能显示设备)日益普及,为多模态交互创造了新机遇。用户可通过口语指代屏幕物品实现更高效的意图传达,这种通过自然语言理解选择屏幕正确对象的任务称为多模态指代消解。

技术挑战与解决方案

屏幕对象可通过视觉属性(“红色外套”)、绝对位置(“右侧第二个”)或相对位置(“黑色外套旁边”)进行描述,也可通过对话历史或元数据(“之前提到的"或"某品牌外套”)进行参照。尽管多模态模型在视觉搜索等任务中表现优异,但指代消解仍面临挑战,主要因屏幕对象参照方式多样性导致。

在第十届对话状态跟踪挑战赛(DSTC10)中,某机构与加州大学洛杉矶分校联合开发的模型在多模态指代消解任务中荣获第一。该模型基于视觉-语言BERT(VL-BERT)架构,通过文本-图像对训练,采用典型的掩码语言模型训练方式,随机屏蔽输入语句词汇或图像区域,使模型学会预测被屏蔽内容。

三大核心改进

  1. 图结构关系表示:利用图像中对象间的相对位置构建图结构,节点代表对象,边描述对象间关系。边编码五种关系类型:上、下、左、右形成两对匹配组,第五种"内部"关系将所有对象与特殊"场景"节点相连。图卷积网络生成包含节点邻域信息的嵌入表示。

  2. 元数据知识注入:添加对象元数据作为额外知识源,支持基于品牌或价格等非视觉特征的指代消解。

  3. 局部环境增强:通过显式采样目标对象周边区域并生成描述字幕,使模型能够基于周边上下文(如货架、桌子等辅助对象)进行指代判断。

模型架构细节

  • 语言流:包含对话词元、元数据文本及补充视觉流的特殊词元
  • 视觉流:包含整体场景、候选对象及其周边区域的视觉特征
  • 分段流:区分对话、查询和其他词元
  • 位置流:标识词元位置

模型针对当前场景每个对象输出二元判断,确定是否为当前对话轮次所指对象。

局部信息处理策略

当视觉场景中的某些元素未被对象识别器识别时(如"柜台上的那个"),通过两种方式捕获局部环境信息:

  1. 八方向区域采样:在目标对象周围八个方向(左上、上、右上等)生成新区域框,编码这些区域的视觉特征并添加到视觉输入流。

  2. 图像描述生成:在训练过程中使用图像描述模型描述目标对象附近的附加对象(如货架、桌子、架子等),使模型能基于周边上下文描述识别对象。

技术成果与应用价值

结合对话轮次距离度量等改进,该模型在DSTC10挑战赛中以综合考量假阳性和假阴性的F1分数获得第一。这项技术将显著提升配备屏幕的智能设备用户的意图表达体验。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计