使用大语言模型合成训练数据
通过提示工程生成定制化训练样本,为轻量级"学生"模型提供数据支持。
对话式AI系统(如智能助手)通常依赖标注数据进行模型训练,但数据收集与标注成本高昂且复杂,形成开发瓶颈。拥有200亿参数的Alexa教师模型等大语言模型(LLMs)在少样本场景表现优异,但其计算成本和模型尺寸难以满足低延迟、高并发的运行时系统需求。
为此提出"通过数据教学"(TvD)方法:基于LLM的教师模型生成特定任务的合成训练数据,再用这些数据微调小型学生模型。本文重点介绍发表于COLING 2022的LINGUIST和发表于AACL的CLASP两项研究成果。
LINGUIST:生成标注语句的指令微调
对话系统通过意图分类和槽位标注(IC+ST)理解用户请求。例如"播放Avicii的《Wake Me Up》“中,意图为播放音乐,槽位对应歌曲名和艺术家。
传统翻译或回译方法存在两大局限:1)输出缺少槽位标签,需通过词对齐引入噪声;2)无法控制输出中的槽位类型和取值。
LINGUIST通过类HTML/XML语法的指令提示控制输出,采用带数字标记的格式(如”[1 波士顿]“表示城市槽位)。该方法支持:
- 指定槽位取值(如固定使用"达拉斯"作为城市)
- 通配符填充(用”*“指示模型生成合适值)
- 多语言生成(仅需修改提示中的语言标识)
- 零样本生成(仅依靠"获取天气"等自然语言标签名)
在SNIPS和mATIS++数据集上,LINGUIST相比基线方法在七种语言中绝对提升2-4个百分点。
CLASP:语义解析的少样本跨语言数据增强
针对更复杂的语义解析任务(如"加额外芝士和菠萝的大披萨,不要火腿,再加两杯雪碧”),提出四种生成策略:
- CLASP-RS:替换槽位值(使用值目录或翻译)
- CLASP-TS:翻译槽位值
- CLASP-GB:同步生成文本和解析式
- CLASP-TB:跨语言生成文本和解析式
在PIZZA数据集(仅348个样本)的低资源场景(16个样本)下,CLASP将精确匹配准确率绝对提升5%,超过85%。在mTOP数据集上,仅依靠各语言一个标注样本,跨四种语言的性能相比机器翻译绝对提升6%。
技术实现特点
- 采用编码器-解码器架构的200亿参数模型
- 通过提示工程实现可控生成
- 支持零样本、少样本和多语言场景
- 现已通过某云平台开发服务提供
该方法已扩展至问答和对话任务,持续探索更多语言支持与应用场景。