多模态指代消解技术突破：图神经网络与视觉语言融合

多模态指代消解技术突破：图神经网络与视觉语言融合

某中心与加州大学合作研发的GraVL-BERT模型在DSTC10挑战赛中夺冠，该模型通过图神经网络处理物体空间关系，结合视觉特征与元数据，显著提升多模态指代消解准确率，为智能设备交互提供技术支撑。

技术背景

带屏幕的语音设备（如某中心智能显示设备）日益普及，为多模态交互创造新机遇。用户可通过口语指代屏幕物品提升交互效率，该技术称为多模态指代消解。对象可通过视觉属性（“红色外套”）、绝对位置（“右侧第二个”）或对话历史（“之前提到的耐克外套”）进行描述。

模型架构

基于视觉语言BERT（VL-BERT）构建，通过三项核心改进：

图结构表征：利用场景中物体的相对位置构建图结构，节点代表物体，边编码五种空间关系（上、下、左、右、包含），通过图卷积网络生成节点嵌入
元数据融合：添加品牌、价格等非视觉特征元数据，扩展指代依据
局部环境建模：通过八方向区域采样获取物体周边视觉特征，并采用图像描述模型生成周边环境文本描述（如"长椅上的夹克"）

技术实现

语言流：包含对话词元、元数据文本及视觉流补充标记
视觉流：整合整体场景特征、候选对象及其周边区域特征
分段流：区分对话、查询与其他标记
位置流：标记位置编码

性能表现

在DSTC10多模态指代消解挑战赛中，该模型以F1分数（综合考量假阳性和假阴性）为评估标准获得第一名。该技术有望显著提升带屏设备的意图理解准确率。

comments powered by Disqus