Lucky Please · AI Report
Claude Fable 5

把前沿一分为二
安全版 Fable 5,解封版 Mythos 5

2026年6月9日,Anthropic 用两副面孔推出了迄今最强的模型。一面是人人可用的 Fable 5,一面是只对经过验证的合作伙伴解开门栓的 Mythos 5。本文以官方发布为第一手来源,把它变了什么、与上一代和竞品在数字上如何拉开,放到同一张表上来看。

Published 2026·06·09 · 9 min read · by Lucky Please Editorial
Overview

一个模型,两个产品

Anthropic 于 2026年6月9日公开了新一代顶级模型。有意思的是,它把这套能力做成了两个产品Claude Fable 5 是面向公众开放的新旗舰,凡是触及网络安全、生物/化学、模型蒸馏(distillation)的提问,都会被安全分类器拦下并转交给 Opus 4.8 处理。Claude Mythos 5 是同一本体上部分解开门栓的版本,只对处理网络防御与基础设施的经过验证的合作伙伴(Project Glasswing)以及部分生物学研究者限量开放。API 模型字符串为 claude-fable-5

本文以 Anthropic 官方发布为第一手来源,以事实为主梳理 Fable 5 与上一代旗舰 Opus 4.8(2026.05.28)有何不同,以及它与竞争前沿在基准上如何对比。官方基准以图片形式提供、未在正文文本中直接给出的项目,则用转录了该表的可信媒体数值交叉核对后列出,并在表下注释中标明。像上下文窗口这类官方未公布具体数值的项目,则不予填写。

发布日期
2026.06.09
Opus 4.8 +12天
模型 ID
claude-fable-5
Mythos 5 为限量开放
价格(输入/输出)
$10 / $50
每百万 token · Opus 4.8 的 2 倍
安全路由
平均 <5% 会话
网络·生化·蒸馏 → Opus 4.8
上下文
官方未公布
文本·视觉输入
缓存
最高节省 90%
提示缓存 · 美国境外推理 1.1x
Strategy

为什么把同一个模型拆成两份

关键是一套把“能力”与“风险”分离的发布策略。Fable 5 与 Mythos 5 本体相同,区别在于安全机制。Fable 5 在高风险领域保守运作,会把可能有危险的请求替换为更克制的 Opus 4.8 的回应。Anthropic 表示,这套安全路由平均只在不到 5% 的会话中触发。换句话说,在其余的日常工作中,用户用到的就是本体的全部性能。

相反,Mythos 5 是部分解开了那道门栓的“解封”版本。为了那些只有比攻击者更快才有意义的领域(比如网络防御),它只对经过验证的合作伙伴限量开放。Anthropic 把它介绍为“世界上最强的网络安全模型”,首批部署限定在 Project Glasswing(网络防御·基础设施)和部分生物学研究者。价位与 Fable 5 相同。

官方还一并公开了实际表现的几则轶事。Stripe 表示,在一次 5,000 万行规模的 Ruby 代码库迁移中,它把数月的工程量压缩到了几天。Fable 5 仅凭视觉单独(vision-only)的工具链就通关了《宝可梦 火红》,而 Mythos 5 在蛋白质设计任务上交出了与熟练人类工作者相当甚至更优的结果,约 80% 的分子生物学假设被认为优于此前 Opus 级别的产出。

Benchmark · I

Fable 5 vs Opus 4.8

下面是按 Anthropic 官方基准表整理的数值(以转录该图片表格的二手来源交叉核对)。这是同一家公司内部与上一代旗舰的对比,可信度最高。表中的 Fable 5 数值是开启了安全版的真实 Fable 5 分数,而网络、生物等敏感领域更高的解封分数,则在后文侧栏中以 Mythos 5 单独标注。

基准Fable 5Opus 4.8变化
SWE-bench Pro (智能体编程)80.369.2+11.1
FrontierCode (最高难度编程)29.313.4+15.9
OSWorld-Verified (计算机使用)85.083.4+1.6
Blueprint-Bench 2 (空间推理)38.614.5+24.1
GDP.pdf (视觉文档)29.822.5+7.3
AutomationBench (工具使用)17.415.5+1.9
Legal Agent Benchmark (法律)13.310.4+2.9
GDPval-AA (实务 ELO)19321890+42

单位为 %(GDPval-AA 为 ELO 分)。在编程与空间推理上的提升幅度最大。FrontierCode 是 Cognition 打造的最高难度基准,从 13.4 提升到 29.3,翻了一倍多。Opus 4.8 的 SWE-bench Pro(69.2)与 GDPval-AA(1890)与上一代发布表中的数值一致,可交叉核对。

Benchmark · II

与竞品并排来看

截至 2026 年 6 月,竞争前沿是 OpenAI GPT-5.5(2026.04 发布)和 Google Gemini 3.1 Pro(2026.02 发布)。下面是转录自 Anthropic 官方表中一并列出的对比值。前提是各家测量的 harness 与条件不同,即便基准名相同,1:1 直接对比也有局限。未公布或无法比较的记为 N/A。

基准Fable 5Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-bench Pro80.369.258.654.2
FrontierCode29.313.45.7N/A
OSWorld-Verified85.083.478.776.2
Blueprint-Bench 2 (空间)38.614.536.226.5
GDP.pdf (视觉)29.822.524.916.7
AutomationBench (工具)17.415.512.99.6
Legal Agent Benchmark13.310.42.10.0
GDPval-AA (ELO)1932189017691314

深色 = 该行最高值。以上所有项目中 Fable 5 都领先——涵盖编程、计算机使用、工具、法律、实务 ELO 各个领域。在空间推理(Blueprint-Bench)上与 GPT-5.5(36.2)的差距最小。纯知识推理(GPQA Diamond)未被纳入 Anthropic 的 Fable 5 官方表,因此没有直接对比值——该基准已在 90% 出头处饱和(GPT-5.5 93.6,Gemini 3.1 Pro 94.3,Opus 4.7 94.2),不少观点认为其区分度已经下降。

在编程、智能体、计算机使用、实务处理上,Fable 5 大幅领先于对比组。最大的飞跃来自高难度编程(FrontierCode)和空间推理。 — 基准综合
Price & Availability

价格,以及在哪里能用

Opus 系列从 4.5(2025.11)→ 4.6 → 4.7 → 4.8(2026.05)间隔越来越短,而这次的 Fable/Mythos 5 是立于其上的新一代。发布周期持续缩短,价格也随能力提高而上调。“更强的模型卖得更贵,风险则用两个产品来分离”,就是这次发布的一句话概括。

📘 同系列 · Claude Opus 4.8 发布 — 改进了什么(基准对比),一并看看上一代旗舰的数字。

参考资料 · Sources

  1. Anthropic, "Claude Fable 5 and Claude Mythos 5" — anthropic.com/news/claude-fable-5-mythos-5(第一手 · 发布日期·价格·安全路由·可用性)
  2. The Decoder, "Anthropic releases Claude Fable 5 and Mythos 5…"(2026.06.09)— 基准对比表转录
  3. digitalapplied, "Claude Fable 5 & Mythos 5: release benchmarks"(2026)— 官方基准图片转录(区分 Fable/Mythos)
  4. CNBC, "Anthropic releases Claude Fable 5"(2026.06.09)— 发布报道
  5. GitHub Changelog — Claude Fable 5 general availability for Copilot(2026.06.09,第一手)
  6. AWS, "Claude Fable 5 now available on Amazon Bedrock"(2026.06.09,第一手 · 可用性)
  7. Anthropic, "Introducing Claude Opus 4.8"(2026.05.28)— 上一代旗舰第一手(价格·基准基准值)
  8. OpenAI, "Introducing GPT-5.5"(2026.04)/ Google, "Gemini 3.1 Pro"(2026.02)— 竞品第一手