2012年のAlexNet以降、14年間にわたり「AI=GPU」の時代だった。ところが2025年11月、NVIDIAが自社CPU(Vera)を発表した。AWS-OpenAIは「数千万個のCPU」を明記した$38B契約を締結した。Intel CEOは「CPUがAIスタックのオーケストレーション層」になったと宣言した。何が変わったのか — そして一次資料は何を示しているのか。
2012年、ImageNetでAlexNetが優勝した出来事がすべての始まりだった(EP02参照)。Hintonの2人の教え子が使ったGPUはNVIDIA GTX 580が2枚 — 家庭用ゲーマー向けカードだ。その日以降、あらゆるAI企業がNVIDIA GPUを買い始めた。
その流れが14年間続いた理由は、AI学習が本質的に行列の掛け算だからだ。ニューラルネットワーク1層 = `W × x` の行列積。GPT-4の1 step = 約1.5兆個の重みを同時に更新する。この作業は、すべてのセルが互いに独立して計算される *embarrassingly parallel* — つまり同じ作業を同時に何万個もこなせば終わる。
| 項目 | CPU | GPU |
|---|---|---|
| コア数 | 数十個(複雑なコア) | 数千~数万個(単純なコア) |
| 設計思想 | Latency最適化 — 1つの作業を速く | Throughput最適化 — 同じ作業を同時に多く |
| メモリ帯域幅 | DDR5 ~50 GB/s | HBM3e ~1,500 GB/s(≈30倍) |
| 特化回路 | 分岐予測・OoO実行・大容量キャッシュ | Tensor Core(FMA・systolic array) |
| AI学習速度 | baseline | 10~100×(ワークロード依存) |
GPUは「分岐予測が難しい多様な作業」には弱いが — それはAI学習には必要ない。だからNVIDIA H100が1枚$30,000+で売れ、時価総額が$4兆を超えた(EP06参照)。
2026年の時点で、AIコンピュートの約2/3が推論(inference)から発生している — Deloitte 2026 Tech Trends Outlookが明記した数値だ。2023年には1/3だった。
そして推論の中でもAgentic AI — ChatGPTが一発回答を返すのではなく、GitHub Copilot WorkspaceやClaude Computer Useのようにツールを使い、検索し、結果を評価し、再び試みる形態 — が中心になった(EP08 RAG参照)。
Agentic AIワークロードの1サイクルは、次の5段階で構成される:
この5段階のうち②③⑤は完全にCPU作業であり、①④もGPUとCPUが混在する。モデル推論(GPUの仕事)はサイクル中で最も短い時間だ — 一定の比率ではなく。
2025年11月、Georgia TechとIntelの共同研究陣がある論文をarXivに掲載した — "Towards Understanding, Analyzing, and Optimizing Agentic AI Execution: A CPU-Centric Perspective"(Raj, Kundu, Vohra, Wang, Krishna · arXiv:2511.00739)。
彼らは5種類の実際のagenticワークロードを、2つのシステムで測定した:
結果 — tool処理(CPU作業)がend-to-end latencyの50~90%:
| ワークロード | CPU処理の比重 | 主なCPU作業 |
|---|---|---|
| RAG (Haystack) | 81~89% | Tool retrieval、ベクトルDB検索 |
| Toolformer | 77~88% | LLM inference自体(オーケストレーション含む) |
| Web-Augmented Agent | 48~55% | Summarization(Python heavy) |
| ChemCrow(化学) | 85~88% | Conformer生成(分子構造) |
| SWE-Agent(コーディング) | 25~65% | Bash · Python sandbox実行 |
エネルギーの面でも — 大きなbatch sizeではCPUの動的エネルギー消費が全体の44~61%にまで上がった(同論文)。電力を食うのはGPUだけではない。
このワークロードの変化は、データセンター設計の根本を揺るがす。市場調査機関のTrendForce(2026年4月レポート)は、次のように整理した:
同じ流れはIntel本社でも確認される。Intel CEOのLip-Bu Tanは、2026年第1四半期の決算発表で次のように語った:
「AI学習向けのインフラは通常、GPU 7~8個あたりCPU 1個の比率だ。だが推論へ移ると、その比率はGPU 3~4個あたりCPU 1個へと狭まる。Agentやmulti-agent環境へ移ると — この比率は1:1になるか、さらにはCPU側へやや傾くことすらありうる。」
— Lip-Bu Tan, Intel CEO · 2026 Q1 決算発表そして同じ発表で彼が付け加えた一言が、本質を凝縮している:
"CPU is now the orchestration layer and critical control plane for the entire AI stack."
— Lip-Bu Tan, Intel CEO · 2026.04理論ではなく、市場で今まさに起きていることを見てみよう。2025年11月3日、OpenAIがAWSと7年$38Bの契約を締結した。AWSとOpenAIが共同で発表した公式文書に明記された資源規模は、次のとおりだ:
"OpenAI is accessing AWS compute comprising hundreds of thousands of state-of-the-art NVIDIA GPUs, with the ability to expand to tens of millions of CPUs to rapidly scale agentic workloads."
→ 数十万GPU vs 数千万CPU。単位そのものが異なる — agentic workloadの拡張には、GPUよりCPUが100倍以上の単位で必要だというOpenAIからの直接的なシグナルだ。
NVIDIA GPU(GB200・GB300)はAmazon EC2 UltraServerにクラスタリングされ、CPUは別建てで — agenticワークロード運用インフラとして明記された。すべての資源は2026年末までにオンラインになる。この1件の契約が市場に投げかけたシグナル: agent時代のインフラ = GPU + 圧倒的な量のCPU。
最も強力なシグナル — GPU時代の絶対王者が自社CPUを発表した出来事。2026年GTCで発表されたNVIDIA Vera CPUの公式仕様:
| 項目 | NVIDIA Vera CPU |
|---|---|
| コア | 88 NVIDIA Olympus コア(custom Armv9.2) |
| プロセス | TSMC N3、monolithic die + adjacent dielets |
| マルチスレッディング | Spatial Multithreading — コア当たり2 task |
| メモリ帯域幅 | 1.2 TB/s LPDDR5X · コア当たり14 GB/s |
| メモリ容量 | 最大1.5 TB |
| GPU接続 | NVLink-C2C 1.8 TB/s coherent(GPUとメモリを共有) |
| 特異点 | 業界初のFP8 precision対応CPU |
| 比較効率 | 「従来CPU比で2×の効率、1.5×の速度」(NVIDIA公式) |
| 投入 | 2026 H2に量産開始 |
Veraは単体では販売されない。Vera Rubin NVL72ラック内で72個のRubin GPU + 36個のVera CPUという構成で出荷される予定だ。NVIDIAはメッセージを明確にした — 「GPUだけを買わないでください。当社のCPUと一緒に使ってください。」
| 製品 | コア | プロセス | 特徴 |
|---|---|---|---|
| Arm AGI CPU | 136 | TSMC N3 | 2026.03投入 · 顧客: Meta, OpenAI, Cloudflare |
| AMD EPYC Venice | 256 (512 SMT) | TSMC N2 | 2026投入予定 · 第5世代Turinの後継 |
| Intel Xeon 6+ (Clearwater Forest) | 288 | Intel 18A | 2027へ遅延 |
| AWS Graviton5 | 192 | TSMC N3 | Arm Neoverse · AWS自社 |
| Microsoft Cobalt 200 | 132 | TSMC N3 | Azure自社ARM CPU |
| Google Axion C4A/N4A | 96 / 64 | — | Google Cloud自社 |
すべてのハイパースケーラーが自社ARMベースのデータセンターCPUを製作中であることが、本質的な変化だ。x86のデータセンター独占は事実上崩れた。ARM Neoverseが新たな標準になりつつある。
理論や発表ではなく、2025年第4四半期の実際の売上数字がトレンドを裏付けてくれる。
AMDのCFOは"large enterprises deploying on-prem EPYC more than doubled in 2025"(大企業の自社データセンターへのEPYC配備が1年で2倍になった)と明言した。そして2026年のガイダンス — "server CPU market to grow strong double digits"。
2026年のAIインフラは、もはや「GPUさえあればいい」ではない。ワークロードごとにチップが分化した:
1. GPUが死ぬのではない。 GPUは依然として推論・学習の核心だ。ただ *GPUの領域の外側* に新たな巨大領域が生まれ、それがCPU復活の舞台になった。"GPU does the thinking, CPU does everything else" というわけだが、その *everything else* がワークロードの半分を超えた。
2. NVIDIAが自社CPU(Vera)を作ったことが最も強いシグナルだ。 単なるportfolioの拡張ではなく — agent時代にGPUの隣にあるCPUが弱点になればGPUの売上も揺らぐという認識の結果だ。NVLink-C2Cでメモリを共有するCPU+GPU統合パッケージが標準になりつつある。
3. AMDが最大の短期受益者 — EPYCが事実上agent時代の標準CPU。 Q4 2025のデータセンター+39% YoY、EPYC Turin 50%+シェア、2026年ガイダンスはstrong double digits。Intelは量産遅延で短期的に危機 — 需要が爆発しているのに供給が不足している。
4. ARMのデータセンター浸透が決定的だ。 Vera, AGI, Graviton5, Cobalt 200, Axion — すべてARM Neoverseベース。x86データセンターの独占は事実上終わった。AMD x86は当面強含みだが、5年の時間軸ではARMが30%+シェアを取りうる。
5. メモリ帯域幅が新たな戦場だ。 Veraの核心は88コアではなく1.2 TB/s LPDDR5X + 1.8 TB/s NVLink-C2Cだ。コア数競争から、メモリ帯域幅(HBM4・LPDDR5X・CXL 3.0)競争へと転換する。受益者 — SKハイニックス・マイクロン・サムスンのメモリ。
2012-2024年のAIは「行列積の時代」であり — GPUが圧勝した。2025-2030年のAIは「agent orchestrationの時代」だ — CPU・GPU・NPU・メモリが共生する *heterogeneous compute* が新たな基本形になる。
NVIDIAが自社CPUを作り、AWSがOpenAI契約に「数千万CPU」を明記し、Intel CEOが"CPU is the orchestration layer"と宣言した2025-2026年が — その転換点だった。
CPUの復活はGPUの敗北ではなく、agentという新たなワークロード・カテゴリーの登場がもたらした結果だ。2026年のAIインフラに関する意思決定は — 「GPUを何個買おうか」ではなく「CPU・GPU・メモリ・インターコネクトをどうバランスよく設計しようか」へと移りつつある。