无监督训练在NLP中的价值体现

本文通过对比语言特定词元化(LST)与语言无关词元化(LIT)在八种语言上的表现，发现当词汇量较小时，基于无标注数据训练的LIT方法在语义相似性任务中表现更优，尤其适用于资源稀缺语言或受限词汇应用场景。

当无监督训练在自然语言处理中展现价值

在较小词汇量下，基于无标注数据训练的词元化器表现最佳。

会议
LREC 2020

相关出版物
《语言无关词元化在词语相似性预测中媲美语言特定词元化》

核心内容

大多数自然语言处理应用的第一步是词元化（tokenization），即将输入字符串分解为语义相关单元。这些单元通常小于单个词语。例如，与查询"word processing"高度匹配的搜索结果可能包含"word processor"短语，两者共享部分但不完全相同的子词单元。

传统与新兴方法

传统词元化器依赖手动编纂的词典（包含词前缀、词干和后缀信息）和人工标注的分词数据，称为语言特定词元化（LST）。而新兴的语言无关词元化（LIT） 通过分析大规模无标注数据自动学习分词单元，其优势在于：

不依赖针对每种语言或领域单独创建的词典或人工分词语料
能更准确处理未见过的新词

实验设计

研究在八种语言（英语、德语、西班牙语、波斯语、意大利语、日语、土耳其语和泰语）上对比LST与LIT方法，主要发现：

LST在大词汇量（≥100万词）下总体更优
LIT在小词汇量（≤5万子词）下具有竞争力甚至更优
- 德语：基于百万词汇量的语言模型（LM）方法最优
- 波斯语和土耳其语：BPE模型在10万和5万词汇量时表现最佳（归因于这些语言的高度"黏着性"）

技术实现

语义相似性评估：
- 使用GloVe方法学习子词嵌入
- 通过三种方式生成词嵌入：未加权平均、加权平均、平滑逆频率加权（SIF）
- 以词嵌入间的余弦相似度衡量语义相似性，并与人工标注结果进行相关性分析
LIT方法对比：
- 字节对编码（BPE）：基于数据压缩技术，迭代合并最常见符号对
- 单语语言模型（LM）：根据语料频率从符号库组装子字符串

实际意义

该研究表明对于资源稀缺语言或词汇量受限的应用场景，LIT是比LST更具吸引力的替代方案。

研究领域：对话式AI、搜索与信息检索
技术标签：人工智能、自然语言处理、词元化

comments powered by Disqus