多模态指代消解模型夺冠技术解析
带屏幕的语音交互设备(如某中心智能显示设备)日益普及,为多模态交互创造了新机遇。用户可通过口语指代屏幕上的物体,更高效地传递意图。利用自然语言理解选择屏幕上正确对象的任务被称为多模态指代消解。
屏幕对象可通过视觉属性(“红色外套”)、绝对位置(“右侧第二个”)或相对位置(“黑色外套旁边”)描述,也可通过对话历史或元数据(“之前提到的款式"或"某机构品牌外套”)进行指代。
尽管多模态模型在视觉搜索等任务中表现优异,但在指代消解任务中仍面临挑战,主要因屏幕对象的指代方式过于多样。在第十届对话状态跟踪挑战赛(DSTC10)中,我们与加州大学洛杉矶分校合作开发的模型在多模态指代消解任务中荣获第一。该模型技术细节已在上月的国际计算语言学会议(COLING)发表。
模型架构
本模型基于视觉语言BERT(VL-BERT)构建,该模型通过文本-图像对训练,采用典型的掩码语言模型训练方法:随机掩码输入语句中的单词或图像区域,要求模型预测被掩码内容。由此模型学会根据文本预测图像特征,反之亦然。
我们对基础架构进行了三项核心改进:
- 使用图结构表示图像中物体间关系,并通过图神经网络提取图形信息
- 添加对象元数据作为额外知识源,支持基于品牌、价格等非视觉特征的指代
- 通过采样目标物体周边区域并生成描述文本,增强上下文感知能力
模型输入包含四个数据流:
- 语言流:对话词元、元数据文本及补充视觉流的特殊标记
- 视觉流:整体场景特征、候选物体及其周边区域视觉特征
- 分段流:区分对话、查询与其他标记
- 位置流:标记位置编码
模型针对当前场景中的每个物体输出二元判断,确定其是否为当前对话轮次所指代的对象。
图结构表示
利用场景中物体的相对位置,模型生成以节点表示物体、边描述物体间关系的图结构。边编码包含五种关系类型:上、下、左、右四个方向关系(形成两对双向关系),以及连接所有物体与特殊"场景"节点的"内部"关系。
该图结构输入图卷积网络后,生成包含节点邻域信息的嵌入表示,作为指代消解模型的输入。
局部环境信息
为解析如"柜台上的那个"等涉及未识别物体的指代,我们通过两种方式捕获物体的局部环境信息:
首先,以目标物体为中心沿八个方向(左上、上、右上等)生成八个检测框,将这些区域的视觉特征编码后加入模型的视觉输入流。与图结构相比,该方法专注局部信息且不依赖物体标注,仅捕获通用视觉特征。
其次,在模型训练阶段,使用图像描述模型生成目标物体周边区域(如货架、桌子、挂架等)的文本描述。这使得模型能够根据周边上下文描述识别物体,例如"长凳上的夹克"。
结合对话轮次距离度量等改进,我们的模型在DSTC10多模态指代消解挑战赛中以F1分数领先夺冠。这项技术将显著提升用户在使用带屏语音设备时的意图表达体验。