当无监督训练在自然语言处理中展现价值
在较小词汇量下,基于无标注数据训练的词元化器表现最佳。
会议
LREC 2020
相关出版物
《语言无关词元化在词语相似性预测中媲美语言特定词元化》
核心内容
大多数自然语言处理应用的第一步是词元化(tokenization),即将输入字符串分解为语义相关单元。这些单元通常小于单个词语。例如,与查询"word processing"高度匹配的搜索结果可能包含"word processor"短语,两者共享部分但不完全相同的子词单元。
传统与新兴方法
传统词元化器依赖手动编纂的词典(包含词前缀、词干和后缀信息)和人工标注的分词数据,称为语言特定词元化(LST)。而新兴的语言无关词元化(LIT) 通过分析大规模无标注数据自动学习分词单元,其优势在于:
- 不依赖针对每种语言或领域单独创建的词典或人工分词语料
- 能更准确处理未见过的新词
实验设计
研究在八种语言(英语、德语、西班牙语、波斯语、意大利语、日语、土耳其语和泰语)上对比LST与LIT方法,主要发现:
- LST在大词汇量(≥100万词)下总体更优
- LIT在小词汇量(≤5万子词)下具有竞争力甚至更优
- 德语:基于百万词汇量的语言模型(LM)方法最优
- 波斯语和土耳其语:BPE模型在10万和5万词汇量时表现最佳(归因于这些语言的高度"黏着性")
技术实现
-
语义相似性评估:
- 使用GloVe方法学习子词嵌入
- 通过三种方式生成词嵌入:未加权平均、加权平均、平滑逆频率加权(SIF)
- 以词嵌入间的余弦相似度衡量语义相似性,并与人工标注结果进行相关性分析
-
LIT方法对比:
- 字节对编码(BPE):基于数据压缩技术,迭代合并最常见符号对
- 单语语言模型(LM):根据语料频率从符号库组装子字符串
实际意义
该研究表明对于资源稀缺语言或词汇量受限的应用场景,LIT是比LST更具吸引力的替代方案。
研究领域:对话式AI、搜索与信息检索
技术标签:人工智能、自然语言处理、词元化