大语言模型内部机制与人类认知对比研究

本研究通过机制可解释性视角分析发现,大语言模型的内部层生成的概率与人类句子处理数据高度吻合,挑战了先前认为大模型认知合理性较差的结论,并揭示了模型不同层与人类阅读行为指标的对应关系。

大语言模型内部机制与人类认知对比研究

近期认知建模研究表明,较大规模语言模型(LMs)与人类阅读行为的拟合度较差(Oh and Schuler, 2023b; Shain et al., 2024; Kuribayashi et al., 2024),这导致了对这些模型认知合理性的质疑。本文通过机制可解释性的视角重新审视这一论点,认为先前的结论由于仅关注语言模型的最终层而存在偏差。

分析显示,从较大规模语言模型的内部层得出的下一个词概率与人类句子处理数据的匹配程度,与较小规模语言模型相当或更好。这种一致性在行为测量(自定速阅读时间、凝视持续时间、MAZE任务处理时间)和神经生理学测量(N400脑电位)中均得到验证,挑战了先前混合的研究结果,并表明较大规模语言模型的认知合理性被低估了。

此外,研究首次发现了语言模型层与人类测量指标之间的有趣关系:较早的层与快速的凝视持续时间更密切相关,而较晚的层则更好地与相对较慢的信号(如N400电位和MAZE处理时间)对齐。这项工作为机制可解释性与认知建模交叉领域的跨学科研究开辟了新途径。

注释:这是该论文的预MIT Press出版版本。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计