某中心在计算语言学会议上荣获最佳论文奖
研究人员提出了一种方法,通过识别客户重述失败请求的情况,自动为语音助手生成训练数据。
研究背景
在国际计算语言学会议上,某中心凭借论文《利用对话系统中的用户重述行为自动收集长尾语句标注》获得了行业赛道最佳论文奖。该研究探讨了如何通过识别客户初次请求失败后重新表述并获得成功的情况,自动创建自然语言理解系统的训练数据。
技术方法
系统架构
该系统包含三个核心模块:
1. 复述检测器
- 判断短时间内连续的两个请求是否为相互复述
- 使用合成数据集进行训练,包含正负样本:
- 正样本:相同意图和槽位的不同载体短语
- 负样本:轻微修改意图或槽位的相似请求
2. 摩擦检测器
- 判断交互是否成功
- 使用四类特征:
- 语句词汇
- 原始意图和槽位分类
- 自然语言理解和语音识别的置信度得分
- 意图处理系统返回的状态码
3. 标签投影算法
- 将成功请求的槽位标签映射到失败请求
- 使用Levenshtein编辑距离最小化语句差异
- 采用贪心算法提高处理效率
实验结果
该方法在德语、意大利语和印地语中进行了测试,德语效果最佳。研究发现,随着自然语言理解模型的成熟,数据噪声减少,该方法的效果会进一步提升。
应用价值
该方法特别适用于处理长尾请求——那些表述独特但总体数量庞大的罕见请求,能够有效补充现有的自学习模型,为对话系统提供更多高质量的训练数据。
技术特点
- 离线工作模式,可修改底层模型
- 自动标注减少人工成本
- 支持多语言环境
- 专注于解决长尾问题
该方法已证明能有效提升对话系统对非常规表述请求的理解能力。