对话系统中的数据瓶颈问题
驱动对话系统的机器学习模型通常需要依赖标注数据进行训练,但数据收集和标注过程成本高昂且复杂,成为开发流程中的主要瓶颈。虽然拥有200亿参数的Alexa教师模型等大语言模型(LLM)在少样本场景表现优异,但其庞大的规模和高计算成本难以满足运行时系统对低延迟和高流量的要求。
教学式数据生成(TvD)方法
为解决这一问题,提出了教学式数据生成(TvD)方法:
- 使用LLM作为"教师"模型生成特定任务的合成训练数据
- 利用生成数据对轻量级"学生"模型进行微调
LINGUIST:带标注的意图分类数据生成
针对意图分类和槽位标注(IC+ST)任务:
- 设计类似HTML/XML标记语言的指令提示模板
- 采用带数字标识的标注格式(如"[1 波士顿]“表示城市槽位)
- 支持零样本场景下的数据生成
- 通过简单修改提示词实现多语言转换
实验显示,在SNIPS和mATIS++数据集上,LINGUIST比翻译和改写基线方法在7种语言中绝对性能提升2-4个百分点。
CLASP:语义解析数据增强方案
针对更复杂的语义解析任务,提出四种策略:
- CLASP-RS:替换槽位值
- CLASP-TS:翻译槽位值
- CLASP-GB:同步生成解析和文本
- CLASP-TB:跨语言同步生成
在PIZZA数据集上,仅使用16个真实样本就使准确率绝对提升5个百分点;在mTOP数据集上,跨4种语言比机器翻译基线提升6个百分点。
应用前景
该方法已拓展至问答和对话等任务,通过持续探索提示工程和模型优化,为多语言对话系统的开发提供了高效的数据解决方案。相关技术已通过某机构的云服务平台向开发者开放。