无监督训练在NLP中的价值体现

Mon, 15 Sep 2025 12:14:01 +0800

当无监督训练在自然语言处理中展现价值

在较小词汇量下，基于无标注数据训练的词元化器表现最佳。

会议
LREC 2020

相关出版物
《语言无关词元化在词语相似性预测中媲美语言特定词元化》

大多数自然语言处理应用的第一步是词元化（tokenization），即将输入字符串分解为语义相关单元。这些单元通常小于单个词语。例如，与查询"word processing"高度匹配的搜索结果可能包含"word processor"短语，两者共享部分但不完全相同的子词单元。