多哈希嵌入在spaCy中的实现
符号的分布式表示是当今机器学习系统的关键技术之一,在现代自然语言处理中发挥着关键作用。传统词嵌入方法为每个单词关联独立的向量。虽然这种方法简单且性能良好,但需要大量内存来表示大词汇表。
为减少内存占用,spaCy默认采用哈希嵌入层。这是对传统嵌入的随机近似,无需显式存储每个单词的独立向量即可为大量单词提供唯一向量表示。为同时计算已知词和未知词的有效表示,哈希嵌入将每个单词表示为标准化词形、子词信息和词形状特征的组合。这些特征共同生成单词的多重嵌入表示。
本技术报告首先回顾发展历史,详细解析spaCy中的嵌入方法实现。其次,通过跨领域多语言的命名实体识别数据集,对基于多重嵌入的哈希嵌入架构进行严格评估。实验验证了spaCy嵌入器的大部分核心设计,同时也揭示了若干意外发现。