技术方案概述
在计算语言学国际会议(COLING)上,某研究团队因论文《利用对话系统中的用户复述行为自动收集长尾语句标注》获得工业赛道最佳论文奖。该研究提出通过捕捉用户初始请求失败后重述成功的行为,自动生成语音助手自然语言理解系统的训练数据。
核心模块
-
复述检测器
- 采用合成数据集训练,通过随机选择相同意图的载体短语注入相同槽位值生成正例
- 通过轻微调整意图/槽位(如将ArtistName替换为RoomName)构造难以区分的负例
-
摩擦检测器
- 输入特征包含:原始语句文本、NLU模型输出的意图/槽位分类、语音识别置信度、下游系统状态码
- 移除用户行为反馈特征以简化模型,输出二元摩擦评分
-
标签投影算法
- 基于Levenshtein编辑距离的贪心算法,将成功请求的槽位标签映射到失败复述
- 仅当相同映射被多次验证后才纳入训练集
实验效果
在德语、意大利语和印地语的测试中,部署时间最长的德语模型表现最佳。研究表明该方法特别适用于处理低频长尾请求,与在线自学习模型形成互补。随着非英语模型成熟度提升,该技术的效益将进一步显现。