技术背景
带屏幕的语音设备(如某中心智能显示设备)日益普及,为多模态交互创造新机遇。用户可通过口语指代屏幕物品提升交互效率,该技术称为多模态指代消解。对象可通过视觉属性(“红色外套”)、绝对位置(“右侧第二个”)或对话历史(“之前提到的耐克外套”)进行描述。
模型架构
基于视觉语言BERT(VL-BERT)构建,通过三项核心改进:
- 图结构表征:利用场景中物体的相对位置构建图结构,节点代表物体,边编码五种空间关系(上、下、左、右、包含),通过图卷积网络生成节点嵌入
- 元数据融合:添加品牌、价格等非视觉特征元数据,扩展指代依据
- 局部环境建模:通过八方向区域采样获取物体周边视觉特征,并采用图像描述模型生成周边环境文本描述(如"长椅上的夹克")
技术实现
- 语言流:包含对话词元、元数据文本及视觉流补充标记
- 视觉流:整合整体场景特征、候选对象及其周边区域特征
- 分段流:区分对话、查询与其他标记
- 位置流:标记位置编码
性能表现
在DSTC10多模态指代消解挑战赛中,该模型以F1分数(综合考量假阳性和假阴性)为评估标准获得第一名。该技术有望显著提升带屏设备的意图理解准确率。