利用大语言模型生成训练数据的技术解析

对话系统中的数据瓶颈问题

驱动对话系统的机器学习模型通常需要依赖标注数据进行训练，但数据收集和标注过程成本高昂且复杂，成为开发流程中的主要瓶颈。虽然拥有200亿参数的Alexa教师模型等大语言模型(LLM)在少样本场景表现优异，但其庞大的规模和高计算成本难以满足运行时系统对低延迟和高流量的要求。

为解决这一问题，提出了教学式数据生成(TvD)方法：

针对意图分类和槽位标注(IC+ST)任务：

实验显示，在SNIPS和mATIS++数据集上，LINGUIST比翻译和改写基线方法在7种语言中绝对性能提升2-4个百分点。

针对更复杂的语义解析任务，提出四种策略：

在PIZZA数据集上，仅使用16个真实样本就使准确率绝对提升5个百分点；在mTOP数据集上，跨4种语言比机器翻译基线提升6个百分点。

该方法已拓展至问答和对话等任务，通过持续探索提示工程和模型优化，为多语言对话系统的开发提供了高效的数据解决方案。相关技术已通过某机构的云服务平台向开发者开放。