高级版Gemini深度思考模型正式达到国际数学奥林匹克竞赛金牌标准
国际数学奥林匹克竞赛(IMO)是世界上最具声望的青年数学家竞赛,自1959年起每年举办。参赛国家由六名精英预科数学家代表,角逐解决代数、组合数学、几何和数论领域的六道极高难度问题。奖牌授予前一半参赛者,其中约8%获得 prestigious 金牌。
近年来,IMO也成为AI系统的 aspirational 挑战,以测试其高级数学问题解决和推理能力。去年,某中心结合的AlphaProof和AlphaGeometry 2系统达到银牌标准,解决了六道问题中的四道,得分28分。利用专业形式语言,这一突破表明AI开始接近精英人类数学推理水平。
今年,某中心成为首批模型结果由IMO协调员使用与学生解决方案相同标准正式评分和认证的机构之一。在认可今年学生参与者重大成就的同时,现在兴奋地分享Gemini的突破性表现。
2025年IMO突破性表现与Gemini深度思考
高级版Gemini深度思考完美解决了六道IMO问题中的五道,总分35分,达到金牌级表现。解决方案可在线查看。
“我们可以确认某中心已达到备受期待的里程碑,获得42分中的35分——金牌分数。他们的解决方案在许多方面令人惊叹。IMO评分员认为它们清晰、精确,且大多数易于理解。”
——IMO主席Gregor Dolinar教授
这一成就较去年突破性结果有显著进步。在2024年IMO上,AlphaGeometry和AlphaProof需要专家首先将问题从自然语言翻译成领域特定语言(如Lean),证明反之亦然。还需要两到三天的计算时间。今年,高级Gemini模型以自然语言端到端操作,直接从官方问题描述生成 rigorous 数学证明——全部在4.5小时竞赛时间限制内完成。
深度思考模式的技术实现
今年结果通过高级版Gemini深度思考实现——这是一种针对复杂问题的增强推理模式,融合了包括并行思考在内的一些最新研究技术。该设置使模型能够在给出最终答案前 simultaneously 探索和结合多种可能解决方案,而不是追求单一线性思维链。
为充分利用深度思考的推理能力,额外训练此版Gemini使用新颖强化学习技术,这些技术可以利用更多多步推理、问题解决和定理证明数据。还为Gemini提供了精选的高质量数学问题解决方案语料库访问权限,并在其指令中添加了一些关于如何应对IMO问题的一般提示和技巧。
将在向某机构AI Ultra订阅者推出之前,向一组受信任测试者(包括数学家)提供此深度思考模型的版本。
AI与数学的未来
某中心与数学界持续合作,但仍处于AI贡献数学潜力的起步阶段。通过教系统更灵活和直观地推理,正接近构建能够解决更复杂和高级数学的AI。
虽然今年方法纯粹基于Gemini的自然语言,但也在形式系统AlphaGeometry和AlphaProof上持续取得进展。相信结合自然语言流畅性和 rigorous 推理——包括形式语言中的 verified 推理——的代理将成为数学家、科学家、工程师和研究人员的宝贵工具,帮助在通往AGI的道路上推进人类知识。
致谢
感谢国际数学奥林匹克竞赛组织的支持。该项目是大规模合作,成功归功于许多个人和团队的共同努力。Thang Luong领导了2025年IMO工作的整体技术方向,并与Edward Lockhart共同领导整体协调。
2025年IMO团队的领导和关键贡献者如下:[名单已省略]。高级Gemini模型与深度思考的IMO构建基于深度思考团队的基础研究,在GDM思考领域赞助下,以及相应的后训练努力包括:[名单已省略]。该工作由Quoc Le和Pushmeet Kohli建议,Kristen Chiafullo和Alex Goldin进行项目管理。
还要感谢专家提供数据和评估:[名单已省略]。进一步感谢以下人员的支持、合作和建议:[名单已省略]。最后,感谢IMO委员会的Gregor Dolinar教授的支持和认可。
IMO已确认提交的答案是完整正确的解决方案。需要注意的是,他们的审查不延伸到验证系统、流程或底层模型(详见更多)。