某中心在计算语言学会议上荣获最佳论文奖

研究人员提出了一种方法，通过识别客户重述失败请求的情况，自动为语音助手生成训练数据。

研究背景

在国际计算语言学会议上，某中心凭借论文《利用对话系统中的用户重述行为自动收集长尾语句标注》获得了行业赛道最佳论文奖。该研究探讨了如何通过识别客户初次请求失败后重新表述并获得成功的情况，自动创建自然语言理解系统的训练数据。

该系统包含三个核心模块：

1. 复述检测器

2. 摩擦检测器

3. 标签投影算法

该方法在德语、意大利语和印地语中进行了测试，德语效果最佳。研究发现，随着自然语言理解模型的成熟，数据噪声减少，该方法的效果会进一步提升。

该方法特别适用于处理长尾请求——那些表述独特但总体数量庞大的罕见请求，能够有效补充现有的自学习模型，为对话系统提供更多高质量的训练数据。

该方法已证明能有效提升对话系统对非常规表述请求的理解能力。