视觉与语言表征在感知相似性多维空间中的融合
人类能够轻松描述所见之物,但在视觉与语言之间建立共享的表征格式仍是一项重大挑战。新证据表明,从大语言模型(LLMs)获取的语义特征空间能有效预测人脑在视觉和语言中的表征。这暗示感知系统可能具备将输入转换为共享嵌入式表征空间的内在能力,但此类空间在人类行为中的表现形式尚不明确。
为探究该问题,63名参与者分别对来自自然场景数据集的100张自然场景图像和100条对应文本描述进行行为相似性判断。研究发现:
- 视觉与语言相似性判断不仅在行为层面收敛
- 二者能相似地预测由观看自然场景图像引发的fMRI脑响应网络
- 经训练将图像映射到LLM嵌入的计算模型,在解释行为相似性结构时优于经过类别训练的模型和AlexNet对照组
这些发现证明,人类视觉与语言相似性判断基于一种共享的、模态无关的表征结构,该结构反映了视觉系统编码经验的方式。感知系统与人工系统的收敛表明概念表征的形成存在共通机制——并非作为模态特异性输入的任意产物,而是反映外部世界稳定关系属性的结构化表征。
研究方法:采用交叉模态相似性评估框架,结合行为实验与神经影像数据验证,通过对比传统神经网络模型与LLM嵌入模型的预测效能,揭示多模态表征的内在一致性。
技术意义:为跨模态人工智能系统提供神经科学依据,证明基于语义嵌入的架构更接近人类感知机制,对改进多模态机器学习模型具有重要参考价值。