突出改进
Claude Opus 4.1最重要的增强是其执行复杂编码任务的能力,包括分析多个文件、精确定位复杂错误以及执行逐步的代理式问题解决。
“Opus 4.1推进了最先进的编码性能…并改善了Claude的深度研究和数据分析技能,特别是在细节跟踪和代理搜索方面,“某机构在发布公告中表示。
早期企业用户的反馈表明这些改进不仅仅是数字上的提升。某集团工程师称赞Opus 4.1能够提供精确的代码修正,而不会引入不必要的更改或错误。
某开发测试平台指出,Opus 4.1在初级开发人员任务上比Opus 4表现高出整整一个标准差。
该模型在SWE-bench Verified基准测试中获得74.5%的优异成绩,该基准测试衡量在真实GitHub问题上的表现。这比Opus 4有显著提升,使Claude 4.1更接近AI编程助手的顶端。
GitHub Copilot集成扩展覆盖范围
GitHub Copilot已将Claude Opus 4.1添加到其Enterprise和Pro+计划订阅者可用的模型中。根据GitHub的说法,此次推出允许用户在GitHub Copilot Chat中选择Claude Opus 4.1,包括在Visual Studio Code、github.com和GitHub Mobile上。
“Claude Opus 4.1将在GitHub Copilot Chat中可用…[但]在Visual Studio Code中,Opus 4.1将仅在询问模式下可用,“GitHub确认。
Copilot Enterprise的管理员必须通过新更新的模型策略设置启用访问权限,才能使其对团队可用。在15天的过渡期内,Claude Opus 4将仍然是一个选项,之后将被弃用。
对开发者的意义
对于已经使用Claude进行开发的开发者来说,升级很简单:只需在API中将模型标识符切换为claude-opus-4-1-20250805。
某机构还鼓励开发者探索Claude Opus 4.1在多个步骤或交互中改进的问题解决能力。TAU-bench和Terminal-Bench等基准测试表明,该模型现在更擅长处理多轮、多步骤任务,使其非常适合构建AI代理或流程自动化系统。
注意事项
在某通讯中,某技术顾问作家Grant Harvey对此提出了几点看法:“以每百万输出标记75美元的价格,它比Sonnet 4贵5倍(但这与当前的Opus 4相同)。您基本上是在为一个能像高级工程师一样调试的AI付费…这取决于您是否认为值得!”
另外,API访问刚刚变得有趣起来。某机构最近的Claude相关举措可能会改变开发者在模型边界上的工作方式。