高级版Gemini深度思考模型正式达到国际数学奥林匹克竞赛金牌标准

国际数学奥林匹克竞赛（IMO）是世界上最具声望的青年数学家竞赛，自1959年起每年举办。参赛国家由六名精英预科数学家代表，角逐解决代数、组合数学、几何和数论领域的六道极高难度问题。奖牌授予前一半参赛者，其中约8%获得 prestigious 金牌。

近年来，IMO也成为AI系统的 aspirational 挑战，以测试其高级数学问题解决和推理能力。去年，某中心结合的AlphaProof和AlphaGeometry 2系统达到银牌标准，解决了六道问题中的四道，得分28分。利用专业形式语言，这一突破表明AI开始接近精英人类数学推理水平。

今年，某中心成为首批模型结果由IMO协调员使用与学生解决方案相同标准正式评分和认证的机构之一。在认可今年学生参与者重大成就的同时，现在兴奋地分享Gemini的突破性表现。

2025年IMO突破性表现与Gemini深度思考

高级版Gemini深度思考完美解决了六道IMO问题中的五道，总分35分，达到金牌级表现。解决方案可在线查看。

“我们可以确认某中心已达到备受期待的里程碑，获得42分中的35分——金牌分数。他们的解决方案在许多方面令人惊叹。IMO评分员认为它们清晰、精确，且大多数易于理解。”

——IMO主席Gregor Dolinar教授

这一成就较去年突破性结果有显著进步。在2024年IMO上，AlphaGeometry和AlphaProof需要专家首先将问题从自然语言翻译成领域特定语言（如Lean），证明反之亦然。还需要两到三天的计算时间。今年，高级Gemini模型以自然语言端到端操作，直接从官方问题描述生成 rigorous 数学证明——全部在4.5小时竞赛时间限制内完成。

深度思考模式的技术实现

今年结果通过高级版Gemini深度思考实现——这是一种针对复杂问题的增强推理模式，融合了包括并行思考在内的一些最新研究技术。该设置使模型能够在给出最终答案前 simultaneously 探索和结合多种可能解决方案，而不是追求单一线性思维链。

为充分利用深度思考的推理能力，额外训练此版Gemini使用新颖强化学习技术，这些技术可以利用更多多步推理、问题解决和定理证明数据。还为Gemini提供了精选的高质量数学问题解决方案语料库访问权限，并在其指令中添加了一些关于如何应对IMO问题的一般提示和技巧。

将在向某机构AI Ultra订阅者推出之前，向一组受信任测试者（包括数学家）提供此深度思考模型的版本。

AI与数学的未来

某中心与数学界持续合作，但仍处于AI贡献数学潜力的起步阶段。通过教系统更灵活和直观地推理，正接近构建能够解决更复杂和高级数学的AI。

虽然今年方法纯粹基于Gemini的自然语言，但也在形式系统AlphaGeometry和AlphaProof上持续取得进展。相信结合自然语言流畅性和 rigorous 推理——包括形式语言中的 verified 推理——的代理将成为数学家、科学家、工程师和研究人员的宝贵工具，帮助在通往AGI的道路上推进人类知识。

致谢

感谢国际数学奥林匹克竞赛组织的支持。该项目是大规模合作，成功归功于许多个人和团队的共同努力。Thang Luong领导了2025年IMO工作的整体技术方向，并与Edward Lockhart共同领导整体协调。

2025年IMO团队的领导和关键贡献者如下：[名单已省略]。高级Gemini模型与深度思考的IMO构建基于深度思考团队的基础研究，在GDM思考领域赞助下，以及相应的后训练努力包括：[名单已省略]。该工作由Quoc Le和Pushmeet Kohli建议，Kristen Chiafullo和Alex Goldin进行项目管理。

还要感谢专家提供数据和评估：[名单已省略]。进一步感谢以下人员的支持、合作和建议：[名单已省略]。最后，感谢IMO委员会的Gregor Dolinar教授的支持和认可。

IMO已确认提交的答案是完整正确的解决方案。需要注意的是，他们的审查不延伸到验证系统、流程或底层模型（详见更多）。

AI数学奥林匹克金牌突破：Gemini深度思考技术解析

本文详细介绍了某机构开发的Gemini深度思考模型在国际数学奥林匹克竞赛中的突破性表现，该模型以自然语言处理技术直接解题，获得35分金牌成绩，并探讨了其背后的强化学习与并行推理技术架构。

高级版Gemini深度思考模型正式达到国际数学奥林匹克竞赛金牌标准

2025年IMO突破性表现与Gemini深度思考

深度思考模式的技术实现

AI与数学的未来

致谢