2026年6月9日、Anthropic はこれまでで最も強力なモデルを二つの顔で世に出した。誰もが使える Fable 5 と、検証済みのパートナーにだけ閂を外した Mythos 5。公式発表を一次ソースに、何が変わり、以前のバージョンや競合モデルと数字がどう分かれるのかを、同じ表の上に並べてみる。
Anthropic は2026年6月9日、次世代の最上位モデルを公開した。興味深いのは、それを二つの製品として打ち出した点だ。Claude Fable 5 は一般に開かれた新フラッグシップで、サイバーセキュリティ・生物/化学・モデル蒸留(distillation)に触れる質問は安全分類器がフィルタリングし、Opus 4.8 に回す。Claude Mythos 5 は同じ本体でその閂を一部外したバージョンで、サイバー防御・インフラを扱う検証済みのパートナー(Project Glasswing)と一部の生物学研究者にのみ限定公開される。API のモデル文字列は claude-fable-5 だ。
この記事は Anthropic の公式発表を一次ソースとして、Fable 5 が直前のフラッグシップ Opus 4.8(2026.05.28)と何が違うのか、そして競合フロンティアとベンチマークがどう比較されるのかを、事実中心に整理する。公式ベンチマークの表が画像形式で提供され、本文テキストに直接表示されない項目は、その表を書き起こした信頼できるメディアの数値を相互検証して掲載し、表の下の注記でそのように示した。コンテキストウィンドウのように公式が数値を明らかにしていない項目は記載していない。
核心は「能力」と「リスク」を切り分けたリリース戦略だ。Fable 5 と Mythos 5 は本体が同じだ。違いは安全装置にある。Fable 5 はリスクの高いドメインで保守的に動作し、危険になりうるリクエストはより抑制された Opus 4.8 の応答に置き換える。Anthropic は、この安全ルーティングが平均して全セッションの5%未満でのみ作動すると明らかにした。残りの日常業務では本体の性能をそのまま使うという意味だ。
逆に Mythos 5 は、その閂を一部外した「封印解除」バージョンだ。サイバー防御のように、攻撃者より速くあって初めて意味がある領域のために、検証済みのパートナーにのみ限定公開する。Anthropic はこれを「世界で最も強力なサイバーセキュリティモデル」として紹介し、初期の配備は Project Glasswing(サイバー防御・インフラ)と一部の生物学研究者に限定した。価格帯は Fable 5 と同じだ。
実際の性能エピソードも併せて公開された。Stripe は5,000万行規模の Ruby コードベース移行において、数か月分のエンジニアリングを数日に圧縮したと伝えた。Fable 5 はビジョン単独(vision-only)のハーネスだけでポケットモンスター ファイアレッドをクリアし、Mythos 5 はタンパク質設計の課題で熟練した人間の作業者と同等かそれ以上の結果を出し、分子生物学の仮説のおよそ80%が従来の Opus 級より好まれたという。
以下は Anthropic の公式ベンチマーク表に基づく数値だ(画像の表を書き起こした二次ソースで相互検証)。同じ会社の中で直前のフラッグシップとの比較なので、最も信頼度が高い。表の Fable 5 の値は安全版がオンになった実際の Fable 5 スコアであり、サイバー・生物のような機微な領域でのより高い封印解除スコアは、後ろのサイドバーで Mythos 5 として別途示した。
| ベンチマーク | Fable 5 | Opus 4.8 | 変化 |
|---|---|---|---|
| SWE-bench Pro (エージェントコーディング) | 80.3 | 69.2 | +11.1 |
| FrontierCode (難度最高のコーディング) | 29.3 | 13.4 | +15.9 |
| OSWorld-Verified (コンピュータ使用) | 85.0 | 83.4 | +1.6 |
| Blueprint-Bench 2 (空間推論) | 38.6 | 14.5 | +24.1 |
| GDP.pdf (ビジョン文書) | 29.8 | 22.5 | +7.3 |
| AutomationBench (ツール使用) | 17.4 | 15.5 | +1.9 |
| Legal Agent Benchmark (法務) | 13.3 | 10.4 | +2.9 |
| GDPval-AA (実務 ELO) | 1932 | 1890 | +42 |
単位は %(GDPval-AA は ELO スコア)。コーディング・空間推論で伸びが最も大きかった。FrontierCode は Cognition が作った難度最高のベンチで、13.4 → 29.3 と2倍以上に上がった。Opus 4.8 の SWE-bench Pro(69.2)・GDPval-AA(1890)は直前の発表表と同じ値なので相互検証される。
2026年6月時点の競合フロンティアは OpenAI GPT-5.5(2026.04 リリース)と Google Gemini 3.1 Pro(2026.02 リリース)だ。以下は Anthropic の公式表に併せて掲載された比較値を書き起こしたものだ。会社ごとに測定ハーネス・条件が異なるため、同じベンチ名でも1:1の直接比較には限界があることを前提に見る。未公開・比較不能は N/A。
| ベンチマーク | Fable 5 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Pro | 80.3 | 69.2 | 58.6 | 54.2 |
| FrontierCode | 29.3 | 13.4 | 5.7 | N/A |
| OSWorld-Verified | 85.0 | 83.4 | 78.7 | 76.2 |
| Blueprint-Bench 2 (空間) | 38.6 | 14.5 | 36.2 | 26.5 |
| GDP.pdf (ビジョン) | 29.8 | 22.5 | 24.9 | 16.7 |
| AutomationBench (ツール) | 17.4 | 15.5 | 12.9 | 9.6 |
| Legal Agent Benchmark | 13.3 | 10.4 | 2.1 | 0.0 |
| GDPval-AA (ELO) | 1932 | 1890 | 1769 | 1314 |
濃い色 = その行の最高値。上記の項目すべてで Fable 5 が先頭だ — コーディング・コンピュータ使用・ツール・法務・実務 ELO の全領域。空間推論(Blueprint-Bench)で GPT-5.5(36.2)との差が最も小さい。純粋な知識推論(GPQA Diamond)は Anthropic の Fable 5 公式表に含まれておらず、直接の比較値がない — すでに90%台前半で飽和しているベンチなので(GPT-5.5 93.6、Gemini 3.1 Pro 94.3、Opus 4.7 94.2)、識別力が落ちるという評価が多い。
コーディング・エージェント・コンピュータ使用・実務処理で Fable 5 が比較群を大きく引き離す。最大の飛躍は、難度の高いコーディング(FrontierCode)と空間推論で生まれた。 — ベンチマーク総合
Opus シリーズは 4.5(2025.11)→ 4.6 → 4.7 → 4.8(2026.05)と間隔が狭まってきており、今回の Fable/Mythos 5 はその上に立つ新しい世代だ。リリース周期は短くなり続け、価格は能力に合わせて上がっている。「より強力なモデルをより高く、リスクは二つの製品に分離」が今回の発表の一行要約だ。