多模态指代消解技术突破:图神经网络与视觉语言融合

某中心与加州大学合作研发的GraVL-BERT模型在DSTC10挑战赛中夺冠,该模型通过图神经网络处理物体空间关系,结合视觉特征与元数据,显著提升多模态指代消解准确率,为智能设备交互提供技术支撑。

技术背景

带屏幕的语音设备(如某中心智能显示设备)日益普及,为多模态交互创造新机遇。用户可通过口语指代屏幕物品提升交互效率,该技术称为多模态指代消解。对象可通过视觉属性(“红色外套”)、绝对位置(“右侧第二个”)或对话历史(“之前提到的耐克外套”)进行描述。

模型架构

基于视觉语言BERT(VL-BERT)构建,通过三项核心改进:

  1. 图结构表征:利用场景中物体的相对位置构建图结构,节点代表物体,边编码五种空间关系(上、下、左、右、包含),通过图卷积网络生成节点嵌入
  2. 元数据融合:添加品牌、价格等非视觉特征元数据,扩展指代依据
  3. 局部环境建模:通过八方向区域采样获取物体周边视觉特征,并采用图像描述模型生成周边环境文本描述(如"长椅上的夹克")

技术实现

  • 语言流:包含对话词元、元数据文本及视觉流补充标记
  • 视觉流:整合整体场景特征、候选对象及其周边区域特征
  • 分段流:区分对话、查询与其他标记
  • 位置流:标记位置编码

性能表现

在DSTC10多模态指代消解挑战赛中,该模型以F1分数(综合考量假阳性和假阴性)为评估标准获得第一名。该技术有望显著提升带屏设备的意图理解准确率。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计