Kimi K2:开源智能体智能
我们介绍Kimi K2,这是一个混合专家(MoE)大语言模型,具有320亿激活参数和1万亿总参数。我们提出MuonClip优化器,通过新颖的QK-clip技术改进Muon,解决训练不稳定性问题,同时享受Muon的高级令牌效率。基于MuonClip,K2在15.5万亿令牌上进行了预训练,零损失峰值。
在后训练期间,K2经历多阶段后训练过程,重点包括大规模智能体数据合成管道和联合强化学习(RL)阶段,模型通过与真实和合成环境交互提升能力。
Kimi K2在开源非思维模型中实现最先进性能,在智能体能力方面表现突出。值得注意的是,K2在Tau2-Bench上获得66.1分,在ACEBench(英文)上获得76.5分,在SWE-Bench Verified上获得65.8分,在SWE-Bench Multilingual上获得47.3分——在非思维设置中超越大多数开源和闭源基线。它还在编码、数学和推理任务中展示强大能力,在LiveCodeBench v6上获得53.7分,在AIME 2025上获得49.5分,在GPQA-Diamond上获得75.1分,在OJBench上获得27.1分,所有这些均无需扩展思维。这些结果使Kimi K2成为迄今为止最有能力的开源大语言模型之一,特别是在软件工程和智能体任务中。我们发布基线和后训练模型检查点,以促进智能体智能的未来研究和应用。
评论:
Kimi K2技术报告
主题:
机器学习(cs.LG);人工智能(cs.AI);计算与语言(cs.CL)