利用无标签数据改进序列标注技术

本文介绍了一种名为seqVAT的新方法,将虚拟对抗训练扩展到序列标注任务,通过利用无标签数据提升模型性能,在多个数据集上超越了现有最佳方法。

利用无标签数据改进序列标注

虚拟对抗训练(VAT)是一种通过向无标签数据添加噪声来创建难以分类的训练样本,从而改进机器学习系统的方法。它在图像分类任务和文本分类任务(如确定评论的情感或文章的主题)上都取得了巨大成功。然而,它不太适用于序列标注任务,即输入短语中的每个单词都获得自己的标签。这主要是因为VAT难以与条件随机场(CRF)集成,而CRF这种统计建模方法对于序列标注任务的最先进性能至关重要。

在某中心的ACL 2020会议上发表的一篇论文中,描述了一种将VAT与条件随机场集成的新方法。在实验中,使用半监督学习(即少量标记训练数据辅以大量未标记数据)在三个不同的序列标注任务上,将该系统与其四个性能最佳的前身进行了比较。在八个不同的数据集上,该方法全面优于所有四个基线。

传统的对抗训练是一种监督学习技术:将噪声添加到标记的训练样本中,使其更难分类,并根据机器学习系统预测标签的效果对其进行评估。VAT将这种方法扩展到半监督学习,旨在利用未标记数据。首先,在标记数据上训练模型。然后,将噪声添加到大量未标记数据中,并进一步训练模型,使其对带噪声版本未标记数据的分类与其对干净版本的分类相匹配。

这种方法依赖于聚合统计数据的比较——干净数据和噪声数据的分类。但条件随机场(CRF)使这种比较变得更加复杂。

序列依赖

CRF对序列中连续项之间的统计关系进行建模,这使其对于序列标注任务(例如确定词性或识别单词序列中与每个名称相关的实体类型(歌曲、歌手、专辑等))非常有用。

例如,在命名实体识别任务中,CRF可以预测跟在歌曲名称后面的单词更可能是歌手的名字而不是旅行公司的名字。在许多基于神经网络的自然语言理解模型中,网络的最后一层是CRF,它缩小了模型需要评估的可能输出范围。

然而,VAT并非设计用于处理CRF捕获的序列依赖。例如,考虑一个命名实体识别器,它接收输入序列“播放Usher的’Burn’”。它应将“Burn”分类为歌曲名称,将“Usher”分类为艺术家名称。

传统的VAT可能会尝试匹配单词“Burn”的噪声版本和干净版本的分类,以及单词“Usher”的噪声版本和干净版本的分类。但它不会尝试匹配CRF学习到的统计依赖性:即如果“Burn”是歌曲名称,那么“Usher”是艺术家名称的可能性就大得多。

这就是seqVAT模型旨在捕获的依赖关系。

组合爆炸

对该依赖关系进行建模的一种方法是计算完整标签序列的概率。也就是说,存在某种概率,“Burn”是歌曲名称且“Usher”是艺术家名称,“Burn”是歌曲名称且“Usher”是专辑名称,“Burn”是餐厅名称且“Usher”是附近地理标志名称,等等。

然而,随着实体类别数量的增加,枚举每个可能分类序列的概率迅速变得在计算上难以处理。因此,使用一种称为k最佳维特比算法的高效方法,来找到最可能的标签序列的短列表(包含k个项目)。

从这些序列的概率中,可以估计整个输出序列标签的概率分布。然后训练网络以最小化在噪声未标记示例情况和干净未标记示例情况下该概率分布之间的差异。

在实验中,与先前实践有所不同的是,使用一个数据集进行训练的监督部分,并使用另一个相关但不同的数据集进行半监督部分。这更准确地模拟了往往需要半监督训练的情况。通常,半监督训练之所以必要,正是因为目标应用的标记数据稀缺或缺失,尽管相关应用的标记数据可用。

将seqVAT的性能与三种流行的半监督训练方法(自训练、熵最小化和交叉视图训练)以及传统VAT的性能进行了比较,传统VAT旨在最小化序列中单个单词的概率分布之间的距离,而不是整个序列的概率分布之间的距离。

在半监督设置中,seqVAT始终是表现最好的方法,而表现第二好的方法则在交叉视图训练和传统VAT之间变化。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计