2026년 6월 9일, Anthropic 이 지금까지 가장 강한 모델을 두 얼굴로 내놓았다. 누구나 쓰는 Fable 5 와, 검증된 파트너에게만 빗장을 푼 Mythos 5. 공식 발표를 1차 출처로, 무엇이 달라졌고 이전 버전·경쟁 모델과 숫자가 어떻게 갈리는지 같은 표 위에 올려 본다.
Anthropic 이 2026년 6월 9일 차세대 최상위 모델을 공개했다. 흥미로운 건 그것을 두 개의 제품으로 내놓았다는 점이다. Claude Fable 5 는 일반에 열린 새 플래그십으로, 사이버보안·생물/화학·모델 증류(distillation)에 닿는 질문은 안전 분류기가 걸러 Opus 4.8 로 넘긴다. Claude Mythos 5 는 같은 본체에서 그 빗장을 일부 푼 버전으로, 사이버방어·인프라를 다루는 검증된 파트너(Project Glasswing)와 일부 생물학 연구자에게만 제한 공개된다. API 모델 문자열은 claude-fable-5 다.
이 글은 Anthropic 공식 발표를 1차 출처로, Fable 5 가 직전 플래그십 Opus 4.8(2026.05.28) 과 무엇이 다른지, 그리고 경쟁 프론티어와 벤치마크가 어떻게 비교되는지를 팩트 위주로 정리한다. 공식 벤치마크 표가 이미지 형태로 제공돼 본문 텍스트로 직접 노출되지 않는 항목은, 그 표를 전사한 신뢰 매체 수치를 교차검증해 실었고 표 아래 주석에 그렇게 표시했다. 컨텍스트 창처럼 공식이 수치를 밝히지 않은 항목은 적지 않았다.
핵심은 "능력"과 "위험"을 분리한 출시 전략이다. Fable 5 와 Mythos 5 는 본체가 같다. 차이는 안전장치에 있다. Fable 5 는 위험 도메인에서 보수적으로 작동해, 위험할 수 있는 요청은 더 절제된 Opus 4.8 의 응답으로 대체한다. Anthropic 은 이 안전 라우팅이 평균적으로 전체 세션의 5% 미만에서만 작동한다고 밝혔다. 나머지 일상 업무에서는 본체의 성능을 그대로 쓴다는 뜻이다.
반대로 Mythos 5 는 그 빗장을 일부 푼 "비봉인" 버전이다. 사이버방어처럼 공격자보다 빨라야 의미가 있는 영역을 위해, 검증된 파트너에게만 제한 공개한다. Anthropic 은 이를 "세계에서 가장 강한 사이버보안 모델"로 소개했고, 초기 배포는 Project Glasswing(사이버방어·인프라)과 일부 생물학 연구자로 한정했다. 가격대는 Fable 5 와 같다.
실제 성능 일화도 함께 공개됐다. Stripe 는 5,000만 줄 규모의 Ruby 코드베이스 마이그레이션에서 수개월치 엔지니어링을 며칠로 압축했다고 전했다. Fable 5 는 비전 단독(vision-only) 하니스만으로 포켓몬 파이어레드를 클리어했고, Mythos 5 는 단백질 설계 과제에서 숙련된 인간 작업자와 대등하거나 더 나은 결과를 냈으며 분자생물학 가설의 약 80%가 기존 Opus 급보다 선호됐다고 한다.
아래는 Anthropic 공식 벤치마크 표 기준 수치다(이미지 표를 전사한 2차 출처로 교차검증). 같은 회사 안에서 직전 플래그십과의 비교라 가장 신뢰도가 높다. 표의 Fable 5 값은 안전판이 켜진 실제 Fable 5 점수이며, 사이버·생물 같은 민감 영역의 더 높은 비봉인 점수는 뒤의 사이드바에서 Mythos 5 로 따로 표시했다.
| 벤치마크 | Fable 5 | Opus 4.8 | 변화 |
|---|---|---|---|
| SWE-bench Pro (에이전트 코딩) | 80.3 | 69.2 | +11.1 |
| FrontierCode (난도 최상 코딩) | 29.3 | 13.4 | +15.9 |
| OSWorld-Verified (컴퓨터 사용) | 85.0 | 83.4 | +1.6 |
| Blueprint-Bench 2 (공간 추론) | 38.6 | 14.5 | +24.1 |
| GDP.pdf (비전 문서) | 29.8 | 22.5 | +7.3 |
| AutomationBench (툴 사용) | 17.4 | 15.5 | +1.9 |
| Legal Agent Benchmark (법률) | 13.3 | 10.4 | +2.9 |
| GDPval-AA (실무 ELO) | 1932 | 1890 | +42 |
단위는 % (GDPval-AA 는 ELO 점수). 코딩·공간 추론에서 폭이 가장 컸다. FrontierCode 는 Cognition 이 만든 난도 최상 벤치로, 13.4 → 29.3 으로 두 배 이상 올랐다. Opus 4.8 의 SWE-bench Pro(69.2)·GDPval-AA(1890) 는 직전 발표 표와 동일한 값이라 교차검증된다.
2026년 6월 기준 경쟁 프론티어는 OpenAI GPT-5.5(2026.04 출시)와 Google Gemini 3.1 Pro(2026.02 출시)다. 아래는 Anthropic 공식 표에 함께 실린 비교값을 전사한 것이다. 회사마다 측정 harness·조건이 달라 같은 벤치명이라도 1:1 직접 비교에는 한계가 있다는 점을 전제로 본다. 미공개·비교불가는 N/A.
| 벤치마크 | Fable 5 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Pro | 80.3 | 69.2 | 58.6 | 54.2 |
| FrontierCode | 29.3 | 13.4 | 5.7 | N/A |
| OSWorld-Verified | 85.0 | 83.4 | 78.7 | 76.2 |
| Blueprint-Bench 2 (공간) | 38.6 | 14.5 | 36.2 | 26.5 |
| GDP.pdf (비전) | 29.8 | 22.5 | 24.9 | 16.7 |
| AutomationBench (툴) | 17.4 | 15.5 | 12.9 | 9.6 |
| Legal Agent Benchmark | 13.3 | 10.4 | 2.1 | 0.0 |
| GDPval-AA (ELO) | 1932 | 1890 | 1769 | 1314 |
진한 색 = 해당 행 최고값. 위 항목 전부에서 Fable 5 가 선두다 — 코딩·컴퓨터 사용·툴·법률·실무 ELO 전 영역. 공간 추론(Blueprint-Bench)에서 GPT-5.5(36.2) 와 격차가 가장 좁다. 순수 지식 추론(GPQA Diamond)은 Anthropic 의 Fable 5 공식 표에 포함되지 않아 직접 비교값이 없다 — 이미 90%대 초반으로 포화된 벤치라(GPT-5.5 93.6, Gemini 3.1 Pro 94.3, Opus 4.7 94.2) 변별력이 떨어진다는 평가가 많다.
코딩·에이전트·컴퓨터 사용·실무 처리에서 Fable 5 가 비교군을 큰 폭으로 앞선다. 가장 큰 도약은 난도 높은 코딩(FrontierCode)과 공간 추론에서 나왔다. — 벤치마크 종합
Opus 시리즈는 4.5(2025.11) → 4.6 → 4.7 → 4.8(2026.05)로 간격이 좁아져 왔고, 이번 Fable/Mythos 5 는 그 위에 올라선 새 세대다. 출시 주기는 계속 짧아지고, 가격은 능력에 맞춰 올라가고 있다. "더 강한 모델을 더 비싸게, 위험은 두 제품으로 분리"가 이번 발표의 한 줄 요약이다.