Anthropic发布Claude Opus 4.5,在复杂推理、代码编程与安全性上实现显著提升

Anthropic正式发布了其最大Claude模型Opus的最新版本4.5。该版本在复杂推理、代理工具使用、计算机使用及新颖问题解决等方面均有改进,并引入了API“努力程度”参数,显著降低了输出令牌消耗。同时,配套的Claude Code功能增强,并在安全性和防提示注入方面有所提升。

Anthropic发布Claude Opus 4.5,在复杂推理、代码编程与安全性上实现显著提升

Anthropic发布了其最大Claude模型Opus的最新版本。Claude Opus 4.5在处理复杂推理方面优于之前的Claude模型,并在代理工具使用、计算机使用、新颖问题解决等方面有所改进。

该公司表示,新模型的早期测试者声称它能更好地处理模糊性,并在无需人工干预的情况下权衡利弊。“他们告诉我们,当指向一个复杂的、多系统错误时,Opus 4.5能找出修复方法。他们说,几周前对Sonnet 4.5几乎不可能完成的任务,现在已经可以实现。总体而言,我们的测试者告诉我们,Opus 4.5就是能‘理解’问题,”Anthropic在一篇帖子中写道。

此版本发布的同时,Claude API引入了一个新的“努力程度”参数,允许开发者决定Claude应该在问题上投入多少努力。根据Anthropic的说法,即使在最高努力水平下,Opus 4.5解决问题所需的令牌数也显著少于其前代模型。例如,在中等努力水平下,Opus 4.5在SWE-bench Verified上的得分与Sonnet 4.5相当,但输出令牌减少了76%;而在最高努力水平下,输出令牌减少了48%,同时性能超过Sonnet 4.5达4.3%。

在安全性方面,Anthropic声称Opus 4.5 Thinking比Sonnet 4.5 Thinking、GPT-5.1 Thinking或Gemini 3 Pro Thinking等模型更不易受到提示注入攻击。

Anthropic还宣布了与新版模型发布同步的Claude Code更新。首先,计划模式现在可以制定更精确的计划并更彻底地执行,Claude会预先提出澄清问题,并将其纳入计划后再执行。其次,Claude Code现在可在Anthropic的桌面应用中使用,允许同时运行多个本地和远程会话。

此外,Claude应用现在会自动总结长对话的早期部分,而Claude for Excel测试版将扩展至Max、Team和Enterprise用户。

Opus 4.5现已可在Anthropic的所有应用和API中使用,价格为每百万输入令牌5美元,每百万输出令牌25美元。

“Opus 4.5是AI系统能力向前迈出的一步,也是工作方式即将发生更大变革的预览,”该公司写道。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计