小样本语言理解任务的新突破

本文介绍了一种结合原型网络与神经数据增强的小样本学习方法,在意图分类任务中显著提升性能。通过对比实验验证了模型在5样本和10样本场景下分别降低8.4%和12.4%的F1错误率,并探讨了生成器在网络中的最佳位置。

小样本语言理解任务的新突破

方法概述

提出结合原型网络(ProtoNets)与神经数据增强的小样本学习方法,用于意图分类任务。该方法在仅提供5-10个样本的情况下,能有效学习新的语言理解任务。

技术架构

原型网络机制

  • 通过元学习实现嵌入空间优化:最大化不同类别的嵌入距离,最小化同类别的嵌入距离
  • 训练过程采用批量学习,每批包含多个类别的若干实例
  • 使用随机梯度下降调整嵌入参数

数据增强创新

  • 在原型网络基础上添加神经数据生成器(ProtoDA)
  • 生成器基于少量真实样本生成合成嵌入样本
  • 使用与原型网络相同的损失函数训练生成器

实验设计

模型对比

  1. 基础原型网络 vs 传统迁移学习:

    • 5样本场景:F1分数提升1%
    • 10样本场景:F1分数提升5%
  2. 增强原型网络 vs 噪声增强 baseline:

    • 5样本场景:F1错误率降低8.4%
    • 10样本场景:F1错误率降低12.4%

生成器位置实验

  • 选项1:语义编码器(768维)与原型网络之间
  • 选项2:原型网络输出(128维)与分类层之间
  • 结果:选项2效果更佳,因维度更低且更接近训练目标函数

技术实现细节

  • 使用双向LSTM编码器处理变长文本输入
  • 生成768维语义嵌入,经原型网络压缩为128维类别嵌入
  • 通过计算与各类别原型距离实现最终分类

应用价值

该方法显著提升小样本场景下的意图分类性能,为语音助手等应用快速适应新功能提供技术支撑。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计