AI · テック · 産業分析

GPU時代の次へ —
なぜAgentには再びCPUが必要なのか

2012年のAlexNet以降、14年間にわたり「AI=GPU」の時代だった。ところが2025年11月、NVIDIAが自社CPU（Vera）を発表した。AWS-OpenAIは「数千万個のCPU」を明記した$38B契約を締結した。Intel CEOは「CPUがAIスタックのオーケストレーション層」になったと宣言した。何が変わったのか — そして一次資料は何を示しているのか。

10分 read 2026.05.05 Industry · Hardware

⚡ TL;DR（5行要約）

2012-2024 · AI=学習=行列積 → GPUの圧勝（メモリ帯域幅30倍、Tensor Core、コア数1,000倍）
2025-2026 · AI=推論・Agent=tool呼び出し・orchestration → CPU作業がlatencyの50～90%（Georgia Tech×Intel arXiv 2511.00739）
CPU:GPU比率が1:8 → 1:1へ移行（TrendForce、2026）。1 GWデータセンター当たりのCPUコア数が3,000万 → 1.2億（4倍）
NVIDIAがGTC 2026で自社CPU Vera（88コア）を投入 · AWS-OpenAI $38B契約に「数千万CPU」を明記 · AMD EPYC Q4 2025売上+39% YoY
GPUが死ぬのではなく — agentの「GPU呼び出しの合間に起きるすべて」がワークロードの半分以上を占めるようになり、その領域こそCPU復活の舞台

01まず — なぜ14年間GPUの時代だったのか

2012年、ImageNetでAlexNetが優勝した出来事がすべての始まりだった（EP02参照）。Hintonの2人の教え子が使ったGPUはNVIDIA GTX 580が2枚 — 家庭用ゲーマー向けカードだ。その日以降、あらゆるAI企業がNVIDIA GPUを買い始めた。

その流れが14年間続いた理由は、AI学習が本質的に行列の掛け算だからだ。ニューラルネットワーク1層 = `W × x` の行列積。GPT-4の1 step = 約1.5兆個の重みを同時に更新する。この作業は、すべてのセルが互いに独立して計算される *embarrassingly parallel* — つまり同じ作業を同時に何万個もこなせば終わる。

構造的な違い（要約）

項目	CPU	GPU
コア数	数十個（複雑なコア）	数千～数万個（単純なコア）
設計思想	Latency最適化 — 1つの作業を速く	Throughput最適化 — 同じ作業を同時に多く
メモリ帯域幅	DDR5 ~50 GB/s	HBM3e ~1,500 GB/s（≈30倍）
特化回路	分岐予測・OoO実行・大容量キャッシュ	Tensor Core（FMA・systolic array）
AI学習速度	baseline	10～100×（ワークロード依存）

GPUは「分岐予測が難しい多様な作業」には弱いが — それはAI学習には必要ない。だからNVIDIA H100が1枚$30,000+で売れ、時価総額が$4兆を超えた（EP06参照）。

02ところがワークロードが学習から推論・Agentへ移った

2026年の時点で、AIコンピュートの約2/3が推論（inference）から発生している — Deloitte 2026 Tech Trends Outlookが明記した数値だ。2023年には1/3だった。

そして推論の中でもAgentic AI — ChatGPTが一発回答を返すのではなく、GitHub Copilot WorkspaceやClaude Computer Useのようにツールを使い、検索し、結果を評価し、再び試みる形態 — が中心になった（EP08 RAG参照）。

Agentic AIワークロードの1サイクルは、次の5段階で構成される:

① Planning

ユーザー要求のトークン化 + 初期推論（目標の分解）

② Orchestration

taskグラフの構成、並列sub-agentのルーティング、データフロー管理

③ Tool execution

API呼び出し、file I/O、JSONパース、DBクエリ、Python interpreter、webクロール

④ Inference loop

chain-of-thought推論 — GPU呼び出しの合間の処理（大半が小さなbatch）

⑤ Reflection

出力の検証、失敗時の再起動、最終応答の組み立て

この5段階のうち②③⑤は完全にCPU作業であり、①④もGPUとCPUが混在する。モデル推論（GPUの仕事）はサイクル中で最も短い時間だ — 一定の比率ではなく。

032025年11月の決定的な論文 — 50～90%がCPU作業

2025年11月、Georgia TechとIntelの共同研究陣がある論文をarXivに掲載した — "Towards Understanding, Analyzing, and Optimizing Agentic AI Execution: A CPU-Centric Perspective"（Raj, Kundu, Vohra, Wang, Krishna · arXiv:2511.00739）。

彼らは5種類の実際のagenticワークロードを、2つのシステムで測定した:

System 1: Intel Granite Rapids CPU（64コア） + RTX-Pro 6000 GPU
System 2: NVIDIA Grace CPU（72コア） + H200 GPU

結果 — tool処理（CPU作業）がend-to-end latencyの50～90%:

ワークロード	CPU処理の比重	主なCPU作業
RAG (Haystack)	81～89%	Tool retrieval、ベクトルDB検索
Toolformer	77～88%	LLM inference自体（オーケストレーション含む）
Web-Augmented Agent	48～55%	Summarization（Python heavy）
ChemCrow（化学）	85～88%	Conformer生成（分子構造）
SWE-Agent（コーディング）	25～65%	Bash · Python sandbox実行

📌 これが意味するもの

GPUが働いている時間よりも、GPUがidleのままCPUの結果を待っている時間のほうが長い。 100万ドルのGPUクラスタを買ったのに、そのうち半分はCPUのtool処理を待ちながら遊んでいるという意味 — つまりCPUが改善されなければGPUの稼働率は半分しか出ない。

エネルギーの面でも — 大きなbatch sizeではCPUの動的エネルギー消費が全体の44～61%にまで上がった（同論文）。電力を食うのはGPUだけではない。

04CPU:GPU比率が1:8 → 1:1へ — TrendForce + Intel CEOのデータ

このワークロードの変化は、データセンター設計の根本を揺るがす。市場調査機関のTrendForce（2026年4月レポート）は、次のように整理した:

1 : 4~8

従来のLLM学習時代
CPU : GPU 比率

1 : 1~2

Agentic AI時代
CPU : GPU 比率

3,000万

従来の1GWデータセンター
CPUコア数

1.2億

Agentic 1GWデータセンター
CPUコア数（4倍）

同じ流れはIntel本社でも確認される。Intel CEOのLip-Bu Tanは、2026年第1四半期の決算発表で次のように語った:

「AI学習向けのインフラは通常、GPU 7～8個あたりCPU 1個の比率だ。だが推論へ移ると、その比率はGPU 3～4個あたりCPU 1個へと狭まる。Agentやmulti-agent環境へ移ると — この比率は1:1になるか、さらにはCPU側へやや傾くことすらありうる。」

— Lip-Bu Tan, Intel CEO · 2026 Q1 決算発表

そして同じ発表で彼が付け加えた一言が、本質を凝縮している:

"CPU is now the orchestration layer and critical control plane for the entire AI stack."

— Lip-Bu Tan, Intel CEO · 2026.04

05$38B AWS-OpenAI契約に明記された「数千万個のCPU」

理論ではなく、市場で今まさに起きていることを見てみよう。2025年11月3日、OpenAIがAWSと7年$38Bの契約を締結した。AWSとOpenAIが共同で発表した公式文書に明記された資源規模は、次のとおりだ:

📋 AWS-OpenAI 共同発表（2025.11.03）

"OpenAI is accessing AWS compute comprising hundreds of thousands of state-of-the-art NVIDIA GPUs, with the ability to expand to tens of millions of CPUs to rapidly scale agentic workloads."

→ 数十万GPU vs 数千万CPU。単位そのものが異なる — agentic workloadの拡張には、GPUよりCPUが100倍以上の単位で必要だというOpenAIからの直接的なシグナルだ。

NVIDIA GPU（GB200・GB300）はAmazon EC2 UltraServerにクラスタリングされ、CPUは別建てで — agenticワークロード運用インフラとして明記された。すべての資源は2026年末までにオンラインになる。この1件の契約が市場に投げかけたシグナル: agent時代のインフラ = GPU + 圧倒的な量のCPU。

06Agent時代のために新たに作られたCPUたち

NVIDIA Vera CPU — GPU企業が自社CPUを作った意味

最も強力なシグナル — GPU時代の絶対王者が自社CPUを発表した出来事。2026年GTCで発表されたNVIDIA Vera CPUの公式仕様:

項目	NVIDIA Vera CPU
コア	88 NVIDIA Olympus コア（custom Armv9.2）
プロセス	TSMC N3、monolithic die + adjacent dielets
マルチスレッディング	Spatial Multithreading — コア当たり2 task
メモリ帯域幅	1.2 TB/s LPDDR5X · コア当たり14 GB/s
メモリ容量	最大1.5 TB
GPU接続	NVLink-C2C 1.8 TB/s coherent（GPUとメモリを共有）
特異点	業界初のFP8 precision対応CPU
比較効率	「従来CPU比で2×の効率、1.5×の速度」（NVIDIA公式）
投入	2026 H2に量産開始

Veraは単体では販売されない。Vera Rubin NVL72ラック内で72個のRubin GPU + 36個のVera CPUという構成で出荷される予定だ。NVIDIAはメッセージを明確にした — 「GPUだけを買わないでください。当社のCPUと一緒に使ってください。」

その他の新規CPUたち

製品	コア	プロセス	特徴
Arm AGI CPU	136	TSMC N3	2026.03投入 · 顧客: Meta, OpenAI, Cloudflare
AMD EPYC Venice	256 (512 SMT)	TSMC N2	2026投入予定 · 第5世代Turinの後継
Intel Xeon 6+ (Clearwater Forest)	288	Intel 18A	2027へ遅延
AWS Graviton5	192	TSMC N3	Arm Neoverse · AWS自社
Microsoft Cobalt 200	132	TSMC N3	Azure自社ARM CPU
Google Axion C4A/N4A	96 / 64	—	Google Cloud自社

すべてのハイパースケーラーが自社ARMベースのデータセンターCPUを製作中であることが、本質的な変化だ。x86のデータセンター独占は事実上崩れた。ARM Neoverseが新たな標準になりつつある。

07業績データで裏付けられたCPU需要の爆発

理論や発表ではなく、2025年第4四半期の実際の売上数字がトレンドを裏付けてくれる。

AMD Q4 2025 業績（2026.02発表）

$5.4B

データセンター売上
+39% YoY · 四半期で過去最高

$10.3B

全体売上
四半期で過去最高

50%+

EPYC Turin（第5世代）
サーバー売上シェア

1,600

EPYCクラウドインスタンス
（2025年に+500個）

AMDのCFOは"large enterprises deploying on-prem EPYC more than doubled in 2025"（大企業の自社データセンターへのEPYC配備が1年で2倍になった）と明言した。そして2026年のガイダンス — "server CPU market to grow strong double digits"。

Intel Q4 2025 / Q1 2026

⚠️ Intel: 需要は爆発するのに供給が不足

2025 Q4 データセンター・AI売上 +15% QoQ — 10年ぶりの最速成長
CFO David Zinsner: "We misjudged the pace of data center CPU demand."
中国向けXeonのリードタイム6ヶ月、価格は+10%以上
2026 Q1が供給の底、Q2から回復見込み
グローバルIT流通各社の報告: 2025 Q4のCPU ASP +30%

08全体像 — チップ覇権の階層化

2026年のAIインフラは、もはや「GPUさえあればいい」ではない。ワークロードごとにチップが分化した:

学習 (Training) — GPUが圧倒的

巨大batch · 行列積99% · NVIDIA H200/B200/Rubin · TPU v5p · AMD MI300X

推論 (Inference) — GPU + 特化ASICの競争

2026年成長率: XPU 22% · GPU 19% · CPU 14%（Futurum 2025.11）。Google TPU 8i, Groq LPU, Cerebras WSE, AWS Trainium

⭐ Agentic Orchestration — CPU復活の領域

Tool呼び出し・branching・メモリ管理。Latencyの50～90% · NVIDIA Vera, AMD EPYC, ARM AGI

Edge / On-device — NPU時代

Apple A18 Pro (35 TOPS), Snapdragon X Elite, Samsung Exynos NPU, Intel Lunar Lake AI Boost

09そこで — 5つの示唆

1. GPUが死ぬのではない。 GPUは依然として推論・学習の核心だ。ただ *GPUの領域の外側* に新たな巨大領域が生まれ、それがCPU復活の舞台になった。"GPU does the thinking, CPU does everything else" というわけだが、その *everything else* がワークロードの半分を超えた。

2. NVIDIAが自社CPU（Vera）を作ったことが最も強いシグナルだ。 単なるportfolioの拡張ではなく — agent時代にGPUの隣にあるCPUが弱点になればGPUの売上も揺らぐという認識の結果だ。NVLink-C2Cでメモリを共有するCPU+GPU統合パッケージが標準になりつつある。

3. AMDが最大の短期受益者 — EPYCが事実上agent時代の標準CPU。 Q4 2025のデータセンター+39% YoY、EPYC Turin 50%+シェア、2026年ガイダンスはstrong double digits。Intelは量産遅延で短期的に危機 — 需要が爆発しているのに供給が不足している。

4. ARMのデータセンター浸透が決定的だ。 Vera, AGI, Graviton5, Cobalt 200, Axion — すべてARM Neoverseベース。x86データセンターの独占は事実上終わった。AMD x86は当面強含みだが、5年の時間軸ではARMが30%+シェアを取りうる。

5. メモリ帯域幅が新たな戦場だ。 Veraの核心は88コアではなく1.2 TB/s LPDDR5X + 1.8 TB/s NVLink-C2Cだ。コア数競争から、メモリ帯域幅（HBM4・LPDDR5X・CXL 3.0）競争へと転換する。受益者 — SKハイニックス・マイクロン・サムスンのメモリ。

10一行の結論

2012-2024年のAIは「行列積の時代」であり — GPUが圧勝した。2025-2030年のAIは「agent orchestrationの時代」だ — CPU・GPU・NPU・メモリが共生する *heterogeneous compute* が新たな基本形になる。

NVIDIAが自社CPUを作り、AWSがOpenAI契約に「数千万CPU」を明記し、Intel CEOが"CPU is the orchestration layer"と宣言した2025-2026年が — その転換点だった。

🔑 核心インサイト（再び）

CPUの復活はGPUの敗北ではなく、agentという新たなワークロード・カテゴリーの登場がもたらした結果だ。2026年のAIインフラに関する意思決定は — 「GPUを何個買おうか」ではなく「CPU・GPU・メモリ・インターコネクトをどうバランスよく設計しようか」へと移りつつある。

📚 一次資料（Verified）

学術論文

Raj, Kundu, Vohra, Wang, Krishna (Nov 2025) "Towards Understanding, Analyzing, and Optimizing Agentic AI Execution: A CPU-Centric Perspective" — arXiv:2511.00739

企業の公式発表

NVIDIA Launches Vera CPU, Purpose-Built for Agentic AI（2026.03 GTC）
NVIDIA Vera CPU Technical Blog — 88 cores, 1.2 TB/s LPDDR5X
AWS and OpenAI announce multi-year strategic partnership（2025.11.03, $38B, "tens of millions of CPUs"）
AMD Q4 2025 Earnings — Data center $5.4B (+39% YoY), EPYC Turin 50%+

GPU時代の次へ —
なぜAgentには再びCPUが必要なのか

01まず — なぜ14年間GPUの時代だったのか

構造的な違い（要約）

02ところがワークロードが学習から推論・Agentへ移った

032025年11月の決定的な論文 — 50～90%がCPU作業

04CPU:GPU比率が1:8 → 1:1へ — TrendForce + Intel CEOのデータ

05$38B AWS-OpenAI契約に明記された「数千万個のCPU」

06Agent時代のために新たに作られたCPUたち

NVIDIA Vera CPU — GPU企業が自社CPUを作った意味

その他の新規CPUたち

07業績データで裏付けられたCPU需要の爆発

AMD Q4 2025 業績（2026.02発表）

Intel Q4 2025 / Q1 2026

08全体像 — チップ覇権の階層化

09そこで — 5つの示唆

10一行の結論

学術論文

企業の公式発表

市場分析 / 産業レポート

参考（LuckyPlzシリーズ）

GPU時代の次へ —なぜAgentには再びCPUが必要なのか

01まず — なぜ14年間GPUの時代だったのか

構造的な違い（要約）

02ところがワークロードが学習から推論・Agentへ移った

032025年11月の決定的な論文 — 50～90%がCPU作業

04CPU:GPU比率が1:8 → 1:1へ — TrendForce + Intel CEOのデータ

05$38B AWS-OpenAI契約に明記された「数千万個のCPU」

06Agent時代のために新たに作られたCPUたち

NVIDIA Vera CPU — GPU企業が自社CPUを作った意味

その他の新規CPUたち

07業績データで裏付けられたCPU需要の爆発

AMD Q4 2025 業績（2026.02発表）

Intel Q4 2025 / Q1 2026

08全体像 — チップ覇権の階層化

09そこで — 5つの示唆

10一行の結論

学術論文

企業の公式発表

市場分析 / 産業レポート

参考（LuckyPlzシリーズ）

GPU時代の次へ —
なぜAgentには再びCPUが必要なのか