大语言模型内部机制与人类认知对比研究
近期认知建模研究表明,较大规模语言模型(LMs)与人类阅读行为的拟合度较差(Oh and Schuler, 2023b; Shain et al., 2024; Kuribayashi et al., 2024),这导致了对这些模型认知合理性的质疑。本文通过机制可解释性的视角重新审视这一论点,认为先前的结论由于仅关注语言模型的最终层而存在偏差。
分析显示,从较大规模语言模型的内部层得出的下一个词概率与人类句子处理数据的匹配程度,与较小规模语言模型相当或更好。这种一致性在行为测量(自定速阅读时间、凝视持续时间、MAZE任务处理时间)和神经生理学测量(N400脑电位)中均得到验证,挑战了先前混合的研究结果,并表明较大规模语言模型的认知合理性被低估了。
此外,研究首次发现了语言模型层与人类测量指标之间的有趣关系:较早的层与快速的凝视持续时间更密切相关,而较晚的层则更好地与相对较慢的信号(如N400电位和MAZE处理时间)对齐。这项工作为机制可解释性与认知建模交叉领域的跨学科研究开辟了新途径。
注释:这是该论文的预MIT Press出版版本。