利用无标注数据提升序列标注技术

本文介绍seqVAT方法,通过扩展虚拟对抗训练至序列标注任务,有效整合条件随机场处理序列依赖关系,在八个数据集上全面超越现有基线模型,提升半监督学习效果。

利用无标注数据改进序列标注

虚拟对抗训练(VAT)是一种通过向无标注数据添加噪声来生成难以分类的训练样本,从而改进机器学习系统的方法。它在图像分类和文本分类任务(如评论情感分析或文章主题识别)中取得了巨大成功。然而,VAT不太适用于序列标注任务,即输入短语中的每个词都需要获得自己的标签。这主要是因为VAT难以与条件随机场(CRF)整合,而CRF是一种统计建模方法,对于序列标注任务的最先进性能至关重要。

某中心研究人员的新seqVAT程序使得虚拟对抗训练(VAT)能够用于具有集成条件随机场(CRF)的网络。

在某会议上发表的论文中,描述了一种将VAT与条件随机场整合的新方法。在实验中,使用半监督学习(即少量标注训练数据辅以大量无标注数据)在三个不同的序列标注任务上,将该系统与四个性能最佳的前代系统进行了比较。在八个不同的数据集上,该方法全面优于所有四个基线。

传统的对抗训练是一种监督学习技术:向标注训练样本添加噪声以使其更难分类,并根据机器学习系统预测标签的效果进行评估。VAT将这种方法扩展到半监督学习,旨在利用无标注数据。首先,在标注数据上训练模型。然后,向大量无标注数据添加噪声,并进一步训练模型,使其对带噪声版本的无标注数据的分类与对干净版本的分类相匹配。

这种方法依赖于聚合统计数据的比较——干净数据和噪声数据的分类。但条件随机场(CRF)使这种比较更加复杂。

序列依赖

CRF对序列中连续项之间的统计关系进行建模,这使其非常适用于序列标注任务,如确定词性或识别词序列中每个名称相关的实体类型(歌曲、歌手、专辑等)。例如,在命名实体识别任务中,CRF可以预测跟在歌曲名称后面的词更可能是歌手名称而不是旅行公司名称。在许多基于神经网络的自然语言理解模型中,网络的最后一层是CRF,它缩小了模型需要评估的可能输出范围。

然而,VAT并非设计用于处理CRF捕获的序列依赖。例如,考虑一个命名实体识别器接收输入序列“播放Usher的《Burn》”。它应将“Burn”分类为歌曲名称,将“Usher”分类为艺术家名称。

传统的VAT可以尝试匹配“Burn”词的噪声版本和干净版本的分类,以及“Usher”词的噪声版本和干净版本的分类。但它不会尝试匹配CRF学习到的统计依赖:即如果“Burn”是歌曲名称,“Usher”更可能是艺术家名称。

这就是seqVAT(序列VAT)模型旨在捕获的依赖。

组合爆炸

建模这种依赖的一种方法是计算完整标签序列的概率。也就是说,“Burn”是歌曲名称且“Usher”是艺术家名称有一定的概率,“Burn”是歌曲名称且“Usher”是专辑名称有一定的概率,“Burn”是餐厅名称且“Usher”是附近地理标志名称有一定的概率,等等。

然而,随着实体类数量的增加,枚举每个可能分类序列的概率迅速变得计算上不可行。因此,使用称为k-best Viterbi算法的算法来高效找到最可能标签序列的短列表(包含k项)。

从这些序列的概率中,可以估计整个输出序列标签的概率分布。然后训练网络以最小化噪声无标注示例和干净无标注示例情况下该概率分布的差异。

在实验中,与先前实践有所不同,使用一个数据集进行训练的监督部分,并使用另一个相关但不同的数据集进行半监督部分。这更准确地模拟了半监督训练需求往往出现的条件。通常,半监督训练是必要的, precisely because labeled data is scarce or absent for the target application, although it’s available for related applications.

将seqVAT的性能与三种流行的半监督训练方法——自训练、熵最小化和交叉视图训练——以及传统VAT的性能进行了比较,传统VAT旨在最小化序列中单个词的概率分布之间的距离,而不是整个序列的分布。

在半监督设置中,seqVAT始终表现最佳,而第二佳表现者则在交叉视图训练和传统VAT之间变化。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计