无监督训练在NLP中的价值体现

本文通过对比语言特定词元化(LST)与语言无关词元化(LIT)在八种语言上的表现,发现当词汇量较小时,基于无标注数据训练的LIT方法在语义相似性任务中表现更优,尤其适用于资源稀缺语言或受限词汇应用场景。

当无监督训练在自然语言处理中展现价值

在较小词汇量下,基于无标注数据训练的词元化器表现最佳。

会议
LREC 2020

相关出版物
《语言无关词元化在词语相似性预测中媲美语言特定词元化》

核心内容

大多数自然语言处理应用的第一步是词元化(tokenization),即将输入字符串分解为语义相关单元。这些单元通常小于单个词语。例如,与查询"word processing"高度匹配的搜索结果可能包含"word processor"短语,两者共享部分但不完全相同的子词单元。

传统与新兴方法

传统词元化器依赖手动编纂的词典(包含词前缀、词干和后缀信息)和人工标注的分词数据,称为语言特定词元化(LST)。而新兴的语言无关词元化(LIT) 通过分析大规模无标注数据自动学习分词单元,其优势在于:

  • 不依赖针对每种语言或领域单独创建的词典或人工分词语料
  • 能更准确处理未见过的新词

实验设计

研究在八种语言(英语、德语、西班牙语、波斯语、意大利语、日语、土耳其语和泰语)上对比LST与LIT方法,主要发现:

  1. LST在大词汇量(≥100万词)下总体更优
  2. LIT在小词汇量(≤5万子词)下具有竞争力甚至更优
    • 德语:基于百万词汇量的语言模型(LM)方法最优
    • 波斯语和土耳其语:BPE模型在10万和5万词汇量时表现最佳(归因于这些语言的高度"黏着性")

技术实现

  1. 语义相似性评估

    • 使用GloVe方法学习子词嵌入
    • 通过三种方式生成词嵌入:未加权平均、加权平均、平滑逆频率加权(SIF)
    • 以词嵌入间的余弦相似度衡量语义相似性,并与人工标注结果进行相关性分析
  2. LIT方法对比

    • 字节对编码(BPE):基于数据压缩技术,迭代合并最常见符号对
    • 单语语言模型(LM):根据语料频率从符号库组装子字符串

实际意义

该研究表明对于资源稀缺语言或词汇量受限的应用场景,LIT是比LST更具吸引力的替代方案。

研究领域:对话式AI、搜索与信息检索
技术标签:人工智能、自然语言处理、词元化

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计