AI技术周报：智能代理与数学突破

头条新闻

新型ChatGPT代理可控制整个计算机并执行任务 某机构推出新型AI工具ChatGPT代理，该工具可通过其“虚拟计算机”代表用户执行复杂的多步骤任务。该工具由专为该产品开发的新模型驱动，能够执行诸如为用户简报即将召开的会议、规划并采购餐食食材、以及基于对竞争对手的分析创建幻灯片等任务。

ChatGPT代理背后的模型通过强化学习训练，可处理需要多种工具（如文本浏览器、视觉浏览器和终端）的复杂任务，用户可在终端导入自有数据。该工具结合了某机构现有AI工具Operator和Deep Research的功能。

该工具设计为在后台执行任务，允许用户稍后返回查看。在执行任何不可逆操作（如发送电子邮件或进行预订）前，该工具会请求用户许可。由于模型能力提升，某机构还激活了“高生物和化学能力”的安全防护措施。该工具正逐步向Pro、Plus和Team用户开放，预计今年夏季晚些时候将面向Enterprise和Education用户提供。

谷歌与某机构AI系统在国际数学奥林匹克竞赛中荣获金奖 某中心DeepMind的人工智能系统在年度国际数学奥林匹克竞赛（一项面向高中生的 prestigious 数学竞赛）中达到“金奖”水平。这是AI首次取得如此成就，在2025年于澳大利亚举办的竞赛中解决了六道问题中的五道。这一成就表明领先机构在数学、科学和计算机编码等领域的AI系统持续改进。此类技术有望加速数学和科学研究，并简化经验丰富的计算机程序员的工作。

相关消息显示，在谷歌宣布此消息仅两天前，某机构一名研究人员声称其初创公司开发的技术在今年的奥林匹克竞赛题目上取得了相似分数，尽管未正式参赛。这表明AI系统在数学和科学领域解决高层次问题的能力日益增强，可能对这些领域的未来研发产生重大影响。

更多相关内容：

某机构的实验模型在国际数学奥林匹克竞赛中获得金奖
某机构、某中心、某机构和xAI获得国防部高达2亿美元的AI工作资金

美国国防部（DoD）宣布向四家机构提供高达2亿美元的AI开发合同：某机构、某中心、某机构和xAI。国防部首席数字和人工智能办公室表示，这些奖项旨在加速采用先进AI能力以应对关键国家安全挑战。这些机构将在该机构内的多个任务领域开发AI代理。国防部首席数字和AI官Doug Matty强调，采用AI正在改变该部支持作战人员并保持对对手战略优势的能力。

Elon Musk的AI初创公司xAI也宣布了一套名为Grok for Government的新产品，使该公司的模型可供美国政府客户使用。这些产品可通过总务管理局（GSA）计划由联邦政府部门、机构或办公室购买。此公告是在xAI因聊天机器人生成和传播冒犯性内容而引发强烈反对后，推出新版本Grok和Grok for Government服务之后发布的。某机构此前在2024年获得了国防部为期一年的2亿美元合同，并推出了面向美国联邦、州和地方政府工作人员的OpenAI for Government。

更多相关内容：

美国政府在“MechaHitler”事件一周后宣布2亿美元Grok合同

AI编程代理Devin制造商Cognition收购Windsurf AI编程代理Devin背后的初创公司Cognition宣布收购AI编码初创公司Windsurf。此前，某中心以24亿美元反向收购了Windsurf的CEO及其他关键人员，留下了250人团队中的大部分成员。此次收购包括Windsurf的知识产权和产品、其AI驱动的集成开发环境（IDE）以及所有剩余员工。尽管收购价格未披露，但Windsurf已实现8200万美元的年化经常性收入（ARR），企业ARR环比翻倍，拥有至少350家企业客户和数十万日活跃用户。

其他新闻

工具

该AI实时扭曲直播视频 - Decart的AI模型Mirage允许使用文本提示实时操纵直播视频，通过以令人印象深刻的速度和创造力转换场景，展示了在直播和游戏中的潜在应用。
某中心的AI现在可为您拨打电话 - 某中心的新AI功能允许美国用户向本地企业拨打电话以获取定价和可用性信息，使用搭载Gemini技术的Duplex模型，同时为订阅用户提供如Gemini 2.5 Pro等高级AI功能。
某机构的新AI工具将滑稽噪声转为逼真音效 - 某机构的新AI工具允许用户从语音录音创建逼真音效，并通过高级控制和风格预设增强视频生成，旨在日益增长的AI竞争中保持其创意软件领导地位。
某机构的Claude聊天机器人现可制作和编辑您的Canva设计 - 某机构的Claude AI现允许Canva用户使用自然语言提示创建和管理设计，这得益于通过模型上下文协议促成的新集成。
Mistral的Le Chat聊天机器人通过新“深度研究”模式提升生产力 - Mistral的Le Chat聊天机器人增强了“深度研究”模式、多语言推理和改进的图像编辑功能，使其成为消费者和企业的综合生产力工具，重点关注安全、本地数据集成。
DuckDuckGo现允许您在搜索结果中隐藏AI生成图像 - DuckDuckGo引入新功能，允许用户从搜索结果中过滤掉AI生成图像，响应用户反馈并利用精选阻止列表减少低质量AI内容的存在。

商业

AI初创公司Luma在好莱坞开设实验室 - Luma AI建立Dream Lab LA，将其AI视频生成工具融入好莱坞，旨在通过自动化和增强创意过程与行业专业人士合作，彻底改变电影制作。
中国希望使用115,000枚禁售英伟达芯片实现AI野心 - 中国正雄心勃勃地在新疆建设数据中心以推进其AI能力，尽管美国对英伟达芯片销售实施限制，引发了对潜在走私和地缘政治紧张局势的担忧。
Mira Murati的Thinking Machines Lab种子轮估值120亿美元 - 由前某机构CTO Mira Murati创立的Thinking Machines Lab已完成20亿美元种子轮融资，该初创公司估值120亿美元，计划在未来几个月内推出一款重要的开源AI产品。
视频游戏演员罢工在AI协议后正式结束 - 视频游戏演员为期一年的针对AI保护的罢工已结束，新协议包括对AI使用的同意和披露要求、历史性加薪以及增强的健康和安全措施。
某中心支持的某机构推出Claude AI for financial services - 某机构推出了专为金融服务量身定制的Claude AI工具版本，提供实时数据访问和与主要数据提供商集成等功能，以协助金融专业人士做出明智决策。
Condé Nast和Hearst与某中心达成AI许可协议用于Rufus - Condé Nast和Hearst已与某中心达成多年协议，许可其内容用于某中心的AI购物助手Rufus，突显了出版商与AI开发者合作以货币化其内容的增长趋势。
某机构接近完成成为终极机器人出租车应用的追求 - 某机构正战略性地与多家自动驾驶汽车公司（包括百度）合作，以在全球扩展其机器人出租车服务，同时利用其现有应用基础设施避免内部开发自动驾驶技术的高成本。
Lovable在推出8个月后以2亿美元A轮融资成为独角兽 - 瑞典AI初创公司Lovable专注于用于应用和网站创建的自然语言编码，迅速以18亿美元估值实现独角兽地位，并在非技术用户中取得显著吸引力，拥有超过230万活跃用户和18万付费订阅者。
又一名某机构高级研究员离职加入Meta - 某机构前研究人员Jason Wei和Hyung Won Chung正加入Meta的超智能实验室，这是Meta从某机构招募AI人才的更广泛趋势的一部分。
某机构收紧Claude Code使用限制而未告知用户 - 某机构未事先宣布收紧Claude Code使用限制，导致用户（尤其是每月200美元Max计划的用户）感到困惑和沮丧，因为他们面临意外限制且缺乏公司的明确沟通。
某机构重新雇回两名员工——他们离职加入竞争对手仅两周后 - Boris Cherny和Cat Wu在离职加入Anysphere后不久返回某机构，他们曾参与Claude Code的开发。

研究

AI提出奇特物理实验且奏效 - AI通过设计创新实验和在复杂数据中 uncover 模式，正在彻底改变物理学， leading to 诸如提高LIGO灵敏度和纠缠交换新方法等进步。
推理还是记忆？数据污染导致强化学习结果不可靠 - 预训练语料库中的数据污染导致Qwen模型在强化学习中的结果不可靠，因为记忆而非 genuine 推理驱动了其在数学基准测试中的表现。
一个令牌即可愚弄LLM-as-a-Judge - 在具有可验证奖励的强化学习中，生成奖励模型易被最小响应或非单词符号操纵， prompting 开发新的 robust 奖励模型Master-RM，该模型通过合成负样本训练以减轻这些弱点。
CompassJudger-2：通过可验证奖励迈向通用裁判模型 - CompassJudger-2通过统一训练范式、改进数据合成和引入JudgerBenchV2进行 robust 评估， enhance 裁判模型性能和适应性。
测试时缩放与反射生成模型 - 本研究中提出的反射生成形式通过集成策略和奖励模型的统一接口， enhance AI模型中的推理轨迹选择，以较少参数实现最先进性能，并在各种基准测试中展示 strong 泛化和效率。
混合递归：学习动态递归深度以实现自适应令牌级计算 - 混合递归（MoR）引入 novel 框架，结合参数效率和自适应计算，通过动态分配令牌特定递归深度、优化内存使用和提高语言模型中的计算效率。
SDE匹配：潜在随机微分方程的可扩展且无模拟训练 - SDE匹配被引入作为训练潜在随机微分方程的无模拟框架，提供高效参数化和降低计算成本，同时在高维问题上保持性能。

关切

研究领袖敦促科技行业监控AI“思想” - 领先组织的AI研究人员倡导增加对监控AI推理模型中“思维链”的关注，以在这些技术变得 more advanced 和 widespread 时 enhance 透明度和安全性。
揭秘ICE的超强面部识别应用及2亿张图像 - ICE的Mobile Fortify应用允许官员使用面部识别技术从多个政府数据库即时访问广泛个人数据，引发对隐私和潜在滥用的担忧。
AI“裸体化”网站正赚取数百万美元 - AI驱动的“裸体化”网站创建未经同意的露骨图像，尽管 efforts 遏制，仍在财务上 thriving，主要科技公司通过基本服务无意中支持其运营。
某机构将面临美国作者的集体诉讼 - 加州联邦法官允许对某机构提起集体诉讼，指控该公司通过 allegedly 下载数百万盗版作品训练其AI模型侵犯版权。
Marco Rubio冒牌货使用AI语音呼叫高级官员 - 冒牌货使用AI生成语音和文本消息冒充国务卿Marco Rubio并联系高级官员， prompting 国务院调查此安全漏洞。
某机构投资者似乎因ChatGPT诱发心理健康危机 - 著名风险投资家兼某机构投资者Geoff Lewis似乎正经历可能与使用ChatGPT相关的心理健康危机，引发对AI用户心理健康影响的担忧。

政策

欧盟表示将按计划继续推出AI立法 - 尽管科技公司施压延迟，欧盟仍坚持其执行AI法案的时间表，该法案按风险分类AI应用并施加相应义务。
扼杀AI暂停的不神圣联盟 - 由Steve Bannon和Mike Davis领导的协调运动成功影响共和党参议员拒绝 proposed AI暂停， highlight MAGA民粹主义者对抗大型科技利益的重大政治胜利。
加州立法者推动要求AI公司发布安全政策 - 加州参议员Scott Wiener提出法案，要求AI公司披露安全协议并报告关键事件，以应对高级AI模型的潜在风险。
David Sacks的白宫使命重塑加密和AI - David Sacks navigate 复杂政治格局，作为特朗普的加密和AI沙皇，平衡硅谷利益与特朗普政府有争议的加密交易，同时 maintaining 在华盛顿和科技行业的影响力和 connections。

专家观点

前某机构工程师描述在那里工作的真实情况 - Calvin French-Owen的博客文章揭示某机构 rapid 增长、混乱的扩展挑战、初创企业般文化，以及其在外部审查下对 practical AI安全问题的关注。
向人展示AI输出是不礼貌的 - AI输出 only 应在被采纳为己用或获得接收者明确同意后分享，因为未经考虑分享可能被视为不礼貌且类似传播无意义噪音。

订阅Last Week in AI获取每周最有趣AI新闻的文本和音频摘要，以及评论近期事件的社论。