当无监督训练在自然语言处理中发挥作用时
在较小的词汇量下,基于无标注数据训练的分词器效果最佳。
分词方法对比
大多数自然语言处理应用的第一步是分词,即将输入字符串分解为语义相关单元。传统分词方法(LST)依赖人工编纂的词典和手动标注数据,而语言无关分词方法(LIT)通过分析大量无标注数据自动学习分词单元。
研究方法
研究比较了八种语言(英语、德语、西班牙语、波斯语、意大利语、日语、土耳其语和泰语)的LST和LIT方法,使用三种方式从子词嵌入创建词嵌入:
- 未加权平均
- 加权平均
- 基于平滑逆频率的加权
关键发现
- 大词汇量优势:在百万词以上的词汇量中,LST分词器通常表现最佳
- 小词汇量突破:在10万词以下的词汇量中,两种LIT模型(基于字节对编码和单语语言模型)全面优于LST模型
- 语言特性影响:德语、波斯语和土耳其语等高度粘着语言中,LIT模型表现特别出色
技术实现
- 字节对编码(BPE):通过迭代合并最常见符号对来构建分词单元
- 单语语言模型:基于符号频率自动组装新的子字符串
应用价值
该研究表明,对于资源稀缺语言或词汇量受限的应用场景,语言无关分词方法提供了有吸引力的替代方案,能够在保持语义信息的同时实现有效的分词处理。
语言无关分词有时会产生不符合语言逻辑的词分割,但在嵌入后仍能有效支持基于语义内容的搜索任务