超越词嵌入的语义涌现:基于视觉Unicode表示的冻结Transformer模型

本研究挑战了传统语言模型中可训练词嵌入作为语义载体的观点,通过冻结视觉Unicode向量构建Transformer模型,证明高层语义是模型架构与数据规模的涌现属性,在MMLU推理基准上超越传统可训练嵌入模型。

超越词嵌入的语义涌现:基于视觉Unicode表示的冻结Transformer模型

理解大语言模型(LLM)中语义表征的定位对可解释性和架构创新至关重要。主流范式认为可训练的输入嵌入是基础的"意义向量",本文对此提出挑战。研究者构建了完全冻结嵌入层的Transformer模型,其向量并非来自数据,而是源自Unicode字符的视觉结构。这些预计算的非语义视觉嵌入在训练过程中保持固定。

该方法兼容任何分词器,包括新引入的Unicode中心分词器以确保通用文本覆盖。尽管缺乏可训练的语义初始化嵌入,这些模型仍能收敛、生成连贯文本,并在MMLU推理基准上超越架构相同但采用可训练嵌入的模型。研究者将此归因于传统模型中存在的"表征干扰"现象——嵌入层同时承担学习结构和语义特征的双重负担。

实验结果表明:高层语义并非输入嵌入的固有属性,而是Transformer组合架构与数据规模下的涌现特性。这重新定义了嵌入层的角色——从语义容器转变为结构基元。所有代码和模型均已开源以促进后续研究。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计