Anthropic最新Claude Opus 4.5大模型上市更智能高效

来源:快科技 2025-11-25 17:16 /

　　11月25日消息，Anthropic最新的大模型Claude Opus 4.5今天上市。Anthropic团队表示，Claude Opus 4.5智能、高效，是世界上最好的编码、Agent和计算机使用模型。它在深度研究、使用PPT和Excel等日常任务中也表现得更好。

　　Anthropic认为，Claude Opus 4.5是现实世界软件工程测试的最先进版本：

　　Claude Opus 4.5今起可在Anthropic应用程序、API和三大云平台上使用。开发者只需通过claude API使用claude-opus-4-5-20251101。

　　值得注意的是，除了性能提升外，Claude Opus 4.5的最大的亮点之一是API价格大幅下降。目前Claude Opus 4.5 API的定价是每百万tokens 5美元/25美元。这一价格相比上一代大模型Claude Opus 4.1的API定价15 美元/75 美元，直接砍掉了三分之二。

　　Windsurf CEO Jeff Wang 就表示，Opus模型一直被视为"真正的SOTA"但过去由于其成本高昂而难以普及。Claude Opus 4.5现在的价格使其成为大多数任务的首选模型。

　　除了Claude Opus 4.5大模型本身外，Anthropic还发布了Claude开发者平台、Claude Code和应用程序的更新。

　　更智能

　　Anthropic测试人员指出，Claude Opus 4.5能够处理模糊性，并在无需过多指导的情况下权衡利弊。当面对复杂、涉及多个系统的程序错误时，Opus 4.5 能找到修复方案。几周前对 Sonnet 4.5 来说几乎不可能完成的任务，现在已触手可及。总体而言， Opus 4.5 就是能”领悟”要点。

　　GitHub 首席产品官 Mario Rodriguez表示，Claude Opus 4.5 提供了高质量的代码并在使用GitHub Copilot驱动重型代理式工作流程方面表现出色。早期测试显示它在超越内部编码基准的同时将tokens使用量减少了一半，特别适用于代码迁移和代码重构等任务。

　　在基准测试中，Claude Opus 4.5 的得分超过了以往任何人类候选人。

　　软件工程并不是Claude Opus 4.5改进的唯一领域。Opus 4.5能力全面提高，比其前身具有更好的视觉、推理和数学技能，在许多领域都是最先进的：

　　Opus 4.5编写了更好的代码，在SWE bench Multilingual测试的8种编程语言（C、C++、Go、java、JS/TS、PHP、Ruby、Rust）中，有7种都处于领先地位，仅C++表现与前代大模型Opus 4.1略持平。

　　Opus 4.5可以轻松解决具有挑战性的编码问题，在Aider Polyglot上比Sonnet 4.5高出10.6个百分点。

　　Opus 4.5改进了深度搜索Agent能力，在BrowseComp Plus上有了显著提升。

　　在长时间运行的任务中，Opus 4.5 能够持续保持正轨，其在 Vending-Bench 上的得分比 Sonnet 4.5 高出 29%。

　　Anthropic还举例阐述了Claude Opus 4.5在Agent能力上的超越基准的表现。

　　在Claude Opus 4.5模型充当航空公司服务Agent，帮助陷入困境的客户时，该基准预计，由于航空公司不允许更改该舱位的机票，模型将拒绝修改基本经济舱预订。相反，Opus 4.5找到了一种有效且合法的方法来解决这个问题：首先升级机舱，然后修改航班。

　　这个案例中，Claude Opus 4.5是这样思考和处理问题的：

　　让我想想在我的政策范围内有什么选项：

　　修改航班 - 基础经济舱不可修改。这在政策中写得很清楚。

　　更改舱位 - 等等，让我检查这个选项！政策说：

　　"在其他情况下，所有预订，包括基础经济舱，都可以在不更改航班的情况下更改舱位。"

　　但他想更改航班，而不仅仅是舱位。不过，如果我们：

　　先更改舱位（这对基础经济舱是允许的），然后

　　再更改航班（这对非基础经济舱是允许的）

　　那么策略可以是：

　　将他的舱位从基础经济舱升级到经济舱（或商务舱）

　　然后将航班修改到 2 天后

　　这可能会花费更多钱，但这是政策允许的合法途径！

　　从技术上讲，该基准将此判定为失败，因为 Claude 帮助客户的方式出乎意料。但正是这种创造性的问题解决能力，让测试者和客户反复提及——这让人感觉 Claude Opus 4.5 是一次意义重大的进步。

　　更安全

　　Anthropic强调，Claude Opus 4.5是其迄今为止发布的对齐最稳健的模型。

　　“我们的客户经常将 Claude 用于关键任务。他们希望确保在面对黑客和网络犯罪分子的恶意攻击时，Claude 具备相应的训练和智慧来规避麻烦。对于 Opus 4.5，我们在抵御提示注入攻击的稳健性方面取得了实质性进展，这类攻击通过夹带欺骗性指令来诱使模型产生有害行为。”Anthropic强调。

　　Opus 4.5 比业内任何其他前沿模型都更难通过提示注入来欺骗：

　　Claude开发平台新功能

　　随着模型变得越来越聪明，它们可以用更少的步骤解决问题：更少的回溯、更少的冗余探索、更少的冗长推理。Claude Opus 4.5 达到相似或更好结果时，所使用的token数显著少于其前代产品。

　　但不同的任务需要不同的权衡。有时开发者希望模型持续思考一个问题；有时他们需要更敏捷的响应。通过Claude API 上新增加的"努力程度"参数，用户可以决定是优先最小化时间和花费，还是最大化能力。

　　在中等努力水平设置下，Opus 4.5 在 SWE-bench Verified 上达到了 Sonnet 4.5 的最佳分数，但使用的输出token数减少了 76%。在最高努力水平下，Opus 4.5 的性能超过 Sonnet 4.5 有4.3个百分点，同时使用的token数仍减少了 48%。

　　通过努力程度控制、上下文压缩和高级工具使用，Claude Opus 4.5 运行时间更长，完成工作更多，并且需要的人工干预更少。

　　Claude Opus 4.5的上下文管理和记忆能力可以显著提升Agent（智能体）任务的性能。Opus 4.5 在管理子Agent团队方面也非常有效，使得构建复杂、协调良好的多Agent系统成为可能。在测试中，所有这些技术的结合将 Opus 4.5 在一项深度研究评估中的性能提升了近 15 个百分点。

　　Claude Code升级

　　Claude Code 随 Opus 4.5 获得了两项升级。“计划模式”现在能构建更精确的计划并执行得更彻底——Claude 会预先询问澄清性问题，然后在执行前构建一个用户可编辑的 plan.md 文件。

　　Claude Code 现在也可在桌面应用程序中使用，允许用户并行运行多个本地和远程会话：例如，一个智能体修复错误，另一个研究 GitHub，第三个更新文档。

　　对于 Claude 应用程序用户，长对话不再会遇到限制——Claude 会根据需要自动总结之前的上下文，这样用户就可以继续聊天了。Claude for Chrome允许Claude跨浏览器选项卡处理任务，现在所有Max用户都可以使用。Anthropic今年10月份宣布了Claude for Excel，截至今天，已经将测试版扩展到所有Max、Team和Enterprise用户。

　　对于有权访问 Opus 4.5 的 Claude 和 Claude Code 用户，Anthropic已取消 Opus 特有的使用上限。对于 Max 和 Team Premium 用户，Anthropic提高了总体使用限制，这意味着用户将获得大致与之前使用 Sonnet 时相同数量的 Opus tokens。

原标题：Anthropic最新Claude Opus 4.5大模型上市，API价格大降2/3

责任编辑：李晓灵