某中心获计算语言学会议最佳论文奖

某中心研究人员提出通过识别用户重述失败请求的案例,自动为语音助手生成训练数据的方法,该论文荣获COLING 2020会议最佳论文奖,技术方案包含复述检测、摩擦检测和标签投影三大模块。

技术方案概述

在计算语言学国际会议(COLING)上,某研究团队因论文《利用对话系统中的用户复述行为自动收集长尾语句标注》获得工业赛道最佳论文奖。该研究提出通过捕捉用户初始请求失败后重述成功的行为,自动生成语音助手自然语言理解系统的训练数据。

核心模块

  1. 复述检测器

    • 采用合成数据集训练,通过随机选择相同意图的载体短语注入相同槽位值生成正例
    • 通过轻微调整意图/槽位(如将ArtistName替换为RoomName)构造难以区分的负例
  2. 摩擦检测器

    • 输入特征包含:原始语句文本、NLU模型输出的意图/槽位分类、语音识别置信度、下游系统状态码
    • 移除用户行为反馈特征以简化模型,输出二元摩擦评分
  3. 标签投影算法

    • 基于Levenshtein编辑距离的贪心算法,将成功请求的槽位标签映射到失败复述
    • 仅当相同映射被多次验证后才纳入训练集

实验效果

在德语、意大利语和印地语的测试中,部署时间最长的德语模型表现最佳。研究表明该方法特别适用于处理低频长尾请求,与在线自学习模型形成互补。随着非英语模型成熟度提升,该技术的效益将进一步显现。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计