2026年6月9日,Anthropic 用两副面孔推出了迄今最强的模型。一面是人人可用的 Fable 5,一面是只对经过验证的合作伙伴解开门栓的 Mythos 5。本文以官方发布为第一手来源,把它变了什么、与上一代和竞品在数字上如何拉开,放到同一张表上来看。
Anthropic 于 2026年6月9日公开了新一代顶级模型。有意思的是,它把这套能力做成了两个产品。Claude Fable 5 是面向公众开放的新旗舰,凡是触及网络安全、生物/化学、模型蒸馏(distillation)的提问,都会被安全分类器拦下并转交给 Opus 4.8 处理。Claude Mythos 5 是同一本体上部分解开门栓的版本,只对处理网络防御与基础设施的经过验证的合作伙伴(Project Glasswing)以及部分生物学研究者限量开放。API 模型字符串为 claude-fable-5。
本文以 Anthropic 官方发布为第一手来源,以事实为主梳理 Fable 5 与上一代旗舰 Opus 4.8(2026.05.28)有何不同,以及它与竞争前沿在基准上如何对比。官方基准以图片形式提供、未在正文文本中直接给出的项目,则用转录了该表的可信媒体数值交叉核对后列出,并在表下注释中标明。像上下文窗口这类官方未公布具体数值的项目,则不予填写。
关键是一套把“能力”与“风险”分离的发布策略。Fable 5 与 Mythos 5 本体相同,区别在于安全机制。Fable 5 在高风险领域保守运作,会把可能有危险的请求替换为更克制的 Opus 4.8 的回应。Anthropic 表示,这套安全路由平均只在不到 5% 的会话中触发。换句话说,在其余的日常工作中,用户用到的就是本体的全部性能。
相反,Mythos 5 是部分解开了那道门栓的“解封”版本。为了那些只有比攻击者更快才有意义的领域(比如网络防御),它只对经过验证的合作伙伴限量开放。Anthropic 把它介绍为“世界上最强的网络安全模型”,首批部署限定在 Project Glasswing(网络防御·基础设施)和部分生物学研究者。价位与 Fable 5 相同。
官方还一并公开了实际表现的几则轶事。Stripe 表示,在一次 5,000 万行规模的 Ruby 代码库迁移中,它把数月的工程量压缩到了几天。Fable 5 仅凭视觉单独(vision-only)的工具链就通关了《宝可梦 火红》,而 Mythos 5 在蛋白质设计任务上交出了与熟练人类工作者相当甚至更优的结果,约 80% 的分子生物学假设被认为优于此前 Opus 级别的产出。
下面是按 Anthropic 官方基准表整理的数值(以转录该图片表格的二手来源交叉核对)。这是同一家公司内部与上一代旗舰的对比,可信度最高。表中的 Fable 5 数值是开启了安全版的真实 Fable 5 分数,而网络、生物等敏感领域更高的解封分数,则在后文侧栏中以 Mythos 5 单独标注。
| 基准 | Fable 5 | Opus 4.8 | 变化 |
|---|---|---|---|
| SWE-bench Pro (智能体编程) | 80.3 | 69.2 | +11.1 |
| FrontierCode (最高难度编程) | 29.3 | 13.4 | +15.9 |
| OSWorld-Verified (计算机使用) | 85.0 | 83.4 | +1.6 |
| Blueprint-Bench 2 (空间推理) | 38.6 | 14.5 | +24.1 |
| GDP.pdf (视觉文档) | 29.8 | 22.5 | +7.3 |
| AutomationBench (工具使用) | 17.4 | 15.5 | +1.9 |
| Legal Agent Benchmark (法律) | 13.3 | 10.4 | +2.9 |
| GDPval-AA (实务 ELO) | 1932 | 1890 | +42 |
单位为 %(GDPval-AA 为 ELO 分)。在编程与空间推理上的提升幅度最大。FrontierCode 是 Cognition 打造的最高难度基准,从 13.4 提升到 29.3,翻了一倍多。Opus 4.8 的 SWE-bench Pro(69.2)与 GDPval-AA(1890)与上一代发布表中的数值一致,可交叉核对。
截至 2026 年 6 月,竞争前沿是 OpenAI GPT-5.5(2026.04 发布)和 Google Gemini 3.1 Pro(2026.02 发布)。下面是转录自 Anthropic 官方表中一并列出的对比值。前提是各家测量的 harness 与条件不同,即便基准名相同,1:1 直接对比也有局限。未公布或无法比较的记为 N/A。
| 基准 | Fable 5 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Pro | 80.3 | 69.2 | 58.6 | 54.2 |
| FrontierCode | 29.3 | 13.4 | 5.7 | N/A |
| OSWorld-Verified | 85.0 | 83.4 | 78.7 | 76.2 |
| Blueprint-Bench 2 (空间) | 38.6 | 14.5 | 36.2 | 26.5 |
| GDP.pdf (视觉) | 29.8 | 22.5 | 24.9 | 16.7 |
| AutomationBench (工具) | 17.4 | 15.5 | 12.9 | 9.6 |
| Legal Agent Benchmark | 13.3 | 10.4 | 2.1 | 0.0 |
| GDPval-AA (ELO) | 1932 | 1890 | 1769 | 1314 |
深色 = 该行最高值。以上所有项目中 Fable 5 都领先——涵盖编程、计算机使用、工具、法律、实务 ELO 各个领域。在空间推理(Blueprint-Bench)上与 GPT-5.5(36.2)的差距最小。纯知识推理(GPQA Diamond)未被纳入 Anthropic 的 Fable 5 官方表,因此没有直接对比值——该基准已在 90% 出头处饱和(GPT-5.5 93.6,Gemini 3.1 Pro 94.3,Opus 4.7 94.2),不少观点认为其区分度已经下降。
在编程、智能体、计算机使用、实务处理上,Fable 5 大幅领先于对比组。最大的飞跃来自高难度编程(FrontierCode)和空间推理。 — 基准综合
Opus 系列从 4.5(2025.11)→ 4.6 → 4.7 → 4.8(2026.05)间隔越来越短,而这次的 Fable/Mythos 5 是立于其上的新一代。发布周期持续缩短,价格也随能力提高而上调。“更强的模型卖得更贵,风险则用两个产品来分离”,就是这次发布的一句话概括。