几个世纪以来,意义理论几乎只是哲学家们在专业会议中辩论的话题。但大语言模型(LLMs)和其他"基础模型"的出现改变了这一状况。主流媒体开始热烈讨论仅通过预测序列下一个词训练的模型是否能真正理解世界。
这种质疑有其历史渊源。1980年哲学家约翰·塞尔提出"中文房间"思想实验:一个不懂中文的人通过规则操作汉字符号来回应中文问题。该实验旨在说明,符号操作本身不能产生语义理解。同样,当代批评者认为LLMs仅能处理"形式"(符号或词语),本质上无法实现理解。意义取决于形式(语言表达或语言模型中的词元序列)与外部事物的关系,而仅接受形式训练的模型无法学习这些关系。
但事实果真如此吗?我们认为语言模型不仅能够而且确实在表示意义。
概率空间 在某机构云服务部门,我们一直在研究具体方法来描述LLMs所表示的意义。这些模型的第一个挑战是意义"存在何处"没有明确答案。当今LLMs通常是仅解码器模型,与仅编码器或编码器-解码器模型不同,它们不使用向量空间表示数据,而是通过Transformer模型的多个层和注意力头以分布式方式表示词语。我们该如何理解这种模型中的意义表示?
在论文《自回归模型中轨迹的意义表示》中,我们提出了解决方案:对于给定句子,考虑所有可能后续词元序列的概率分布,所有此类分布的集合定义了一个表示空间。两个句子的延续概率(或轨迹)越相似,它们在表示空间中就越接近;概率分布差异越大,距离就越远。产生相同延续分布的句子是"等价的",它们共同定义一个等价类。句子的意义表示就是它所属的等价类。
在自然语言处理领域,词语在语言中的分布与其意义密切相关的观点被广泛认可,这被称为"分布假说"。但我们相信是首次将分布本身作为表示意义的主要方式。由于LLMs提供了计算这些分布的方法,这成为可能。
当然,单个句子的可能延续实际上是无限的,即使使用LLM也无法完全描述其分布。但这种不可能性反映了意义的根本不确定性,这对人类和AI模型都成立。意义不是直接观察到的:它们编码在大脑的数十亿突触或训练模型的数十亿激活中,可用于产生表达。任何有限数量的表达都可能与多个(实际上是无限多个)意义兼容;人类或语言模型意图传达的意义永远无法确定。
令人惊讶的是,尽管当今模型维度很大,我们不需要采样数十亿或数万亿轨迹来表征意义。少量(例如10或20个)就足够了。这与人类语言实践一致:老师被问及特定陈述的含义时,通常会以几种方式重新表述,这可以看作是尝试识别陈述所属的等价类。
在论文报告的实验中,我们展示了使用现成LLMs采样词元轨迹的句子相似性度量与人类标注高度一致。事实上,我们的策略在语义文本相似性(STS)的零样本基准测试中优于所有竞争方法。
形式与内容 这是否意味着我们对意义的定义(可能轨迹的分布)反映了人类赋予意义的过程?怀疑论者可能认为不可能:文本延续仅基于"形式",缺乏意义所需的外部基础。
但延续概率可能捕捉到我们解释世界的更深层内容。考虑以"梳妆台上站着……“开头的句子,以及三个可能延续的概率:(1)“一张照片”;(2)“奥斯卡小雕像”;(3)“钚锭”。这些概率难道不告诉你关于在某人梳妆台上实际可能找到什么的信息吗?所有可能句子延续的概率可能是发现梳妆台上不同物体可能性的良好指南;在这种情况下,LLM编码的"形式"模式会告诉你关于世界的特定信息。
怀疑论者可能反驳,词语到对象的映射赋予词语意义,而映射并非词语固有;它需要人类解释或LLM外部的其他机制。
但人类如何完成这种映射?当你读到"梳妆台上的物体"时,内部会发生什么?你可能想象某种不确定的东西——从多个角度或高度观看的梳妆台的叠加,上面有特定尺寸和颜色范围的抽象物体。你可能还想象梳妆台在房间中的可能位置、房间的其他家具、梳妆台木材的触感、梳妆台或上面物体的气味等等。
所有这些可能性都可以通过概率分布来捕捉,涵盖多感官模态和多重概念模式中的数据。因此,对人类而言,意义可能也涉及延续概率,但在多感官空间中而非文本空间中。按照这种观点,当LLM计算词元序列的延续时,它以一种类似于人类的方式访问意义,只是在更有限的空间中。
怀疑论者可能认为,从多感官领域到书面语言的通道是意义无法通过的瓶颈。但这种通道也可以解释为简单投影,类似于从三维场景到二维图像的投影。二维图像仅提供部分信息,但在许多情况下,场景仍然完全可以理解。既然语言是我们交流多感官体验的主要工具,投射到文本可能毕竟不是那么"有损”。
这并非说当今LLMs以与人类相同的方式掌握意义。我们的工作仅表明大语言模型发展出具有语义价值的内部表示。我们还发现证据表明此类表示由离散实体组成,这些实体以复杂方式相互关联——不仅是接近性,还有方向性、蕴涵和包含。
但这些结构关系可能不同于训练模型所用语言的结构关系。即使我们在感官信号上训练模型,这一点仍然成立:我们无法直接看到特定表达背后隐藏的意义,对模型如此,对人类也是如此。
如果模型和人类接触过相似数据,并且如果他们有足够的共享经验(当前标注是共享的媒介),那么就有了交流的基础。对齐可以被看作是在模型涌现的"内部语言"(我们称之为"神经语")和自然语言之间翻译的过程。
这种对齐能有多忠实?随着我们继续改进这些模型,我们将需要面对即使人类也缺乏稳定、通用的共享意义系统这一事实。LLMs以其独特的信息处理方式,可能只是多样化解释合唱中的另一个声音。
关于世界与其表示之间关系的问题以某种形式成为哲学核心至少400年,尚未出现明确答案。随着我们走向LLMs可能扮演越来越重要角色的未来,我们不应仅凭直觉 dismiss 想法,而应继续追问这些难题。LLMs的明显局限可能仅反映了我们对意义实际含义的贫乏理解。