下一代令牌预测的陷阱
仅凭下一代令牌预测器能否忠实模拟人类智能?本文聚焦这一新兴关切,纠正相关流行误解,并倡导采用简单的多令牌目标。
关键问题分析
首先需要明确区分下一代令牌预测的两个常被混淆的阶段:自回归推理和教师强制训练。当前流行的批评认为误差会在自回归推理过程中累积,但这一观点关键性地假设教师强制训练已经学会了准确的下一代令牌预测器。这种假设回避了我们揭示的更深层问题:在某些任务类别中,教师强制训练可能从一开始就无法学会准确的下一代令牌预测器。
机制缺陷验证
我们描述了教师强制训练失效的通用机制,并设计了一个最小规划任务进行实证验证。令人惊讶的是,尽管该任务本身易于学习,但Transformer架构和Mamba架构都出现了预期中的失败。
创新解决方案
初步证据表明,通过采用无教师训练(一种使用虚拟令牌提前预测多个令牌的简单修改)可以解决这一失效问题。这一发现有望为未来辩论提供实证基础,并激发超越下一代令牌预测范式的探索。相关代码已通过https链接公开。
本文基于ICML 2024会议论文,涉及计算语言学(cs.CL)、人工智能(cs.AI)和机器学习(cs.LG)领域