小样本语言理解任务的新突破
方法概述
提出结合原型网络(ProtoNets)与神经数据增强的小样本学习方法,用于意图分类任务。该方法在仅提供5-10个样本的情况下,能有效学习新的语言理解任务。
技术架构
原型网络机制
- 通过元学习实现嵌入空间优化:最大化不同类别的嵌入距离,最小化同类别的嵌入距离
- 训练过程采用批量学习,每批包含多个类别的若干实例
- 使用随机梯度下降调整嵌入参数
数据增强创新
- 在原型网络基础上添加神经数据生成器(ProtoDA)
- 生成器基于少量真实样本生成合成嵌入样本
- 使用与原型网络相同的损失函数训练生成器
实验设计
模型对比
-
基础原型网络 vs 传统迁移学习:
- 5样本场景:F1分数提升1%
- 10样本场景:F1分数提升5%
-
增强原型网络 vs 噪声增强 baseline:
- 5样本场景:F1错误率降低8.4%
- 10样本场景:F1错误率降低12.4%
生成器位置实验
- 选项1:语义编码器(768维)与原型网络之间
- 选项2:原型网络输出(128维)与分类层之间
- 结果:选项2效果更佳,因维度更低且更接近训练目标函数
技术实现细节
- 使用双向LSTM编码器处理变长文本输入
- 生成768维语义嵌入,经原型网络压缩为128维类别嵌入
- 通过计算与各类别原型距离实现最终分类
应用价值
该方法显著提升小样本场景下的意图分类性能,为语音助手等应用快速适应新功能提供技术支撑。