📌 情報提供を目的とした産業分析 · 本稿は2025-2026年の公開された一次資料(arXiv論文、企業IR、公式発表)に基づく分析です。特定銘柄の売買を推奨するものではなく、投資判断はご自身の責任で行ってください。
AI · テック · 産業分析

GPU時代の次へ —
なぜAgentには再びCPUが必要なのか

2012年のAlexNet以降、14年間にわたり「AI=GPU」の時代だった。ところが2025年11月、NVIDIAが自社CPU(Vera)を発表した。AWS-OpenAIは「数千万個のCPU」を明記した$38B契約を締結した。Intel CEOは「CPUがAIスタックのオーケストレーション層」になったと宣言した。何が変わったのか — そして一次資料は何を示しているのか。

10分 read 2026.05.05 Industry · Hardware
⚡ TL;DR(5行要約)

01まず — なぜ14年間GPUの時代だったのか

2012年、ImageNetでAlexNetが優勝した出来事がすべての始まりだった(EP02参照)。Hintonの2人の教え子が使ったGPUはNVIDIA GTX 580が2枚 — 家庭用ゲーマー向けカードだ。その日以降、あらゆるAI企業がNVIDIA GPUを買い始めた

その流れが14年間続いた理由は、AI学習が本質的に行列の掛け算だからだ。ニューラルネットワーク1層 = `W × x` の行列積。GPT-4の1 step = 約1.5兆個の重みを同時に更新する。この作業は、すべてのセルが互いに独立して計算される *embarrassingly parallel* — つまり同じ作業を同時に何万個もこなせば終わる。

構造的な違い(要約)

項目CPUGPU
コア数数十個(複雑なコア)数千~数万個(単純なコア)
設計思想Latency最適化 — 1つの作業を速くThroughput最適化 — 同じ作業を同時に多く
メモリ帯域幅DDR5 ~50 GB/sHBM3e ~1,500 GB/s(≈30倍)
特化回路分岐予測・OoO実行・大容量キャッシュTensor Core(FMA・systolic array)
AI学習速度baseline10~100×(ワークロード依存)

GPUは「分岐予測が難しい多様な作業」には弱いが — それはAI学習には必要ない。だからNVIDIA H100が1枚$30,000+で売れ、時価総額が$4兆を超えた(EP06参照)。

02ところがワークロードが学習から推論・Agentへ移った

2026年の時点で、AIコンピュートの約2/3が推論(inference)から発生している — Deloitte 2026 Tech Trends Outlookが明記した数値だ。2023年には1/3だった。

そして推論の中でもAgentic AI — ChatGPTが一発回答を返すのではなく、GitHub Copilot WorkspaceやClaude Computer Useのようにツールを使い、検索し、結果を評価し、再び試みる形態 — が中心になった(EP08 RAG参照)。

Agentic AIワークロードの1サイクルは、次の5段階で構成される:

① Planning
ユーザー要求のトークン化 + 初期推論(目標の分解)
② Orchestration
taskグラフの構成、並列sub-agentのルーティング、データフロー管理
③ Tool execution
API呼び出し、file I/O、JSONパース、DBクエリ、Python interpreter、webクロール
④ Inference loop
chain-of-thought推論 — GPU呼び出しの合間の処理(大半が小さなbatch)
⑤ Reflection
出力の検証、失敗時の再起動、最終応答の組み立て

この5段階のうち②③⑤は完全にCPU作業であり、①④もGPUとCPUが混在する。モデル推論(GPUの仕事)はサイクル中で最も短い時間だ — 一定の比率ではなく。

032025年11月の決定的な論文 — 50~90%がCPU作業

2025年11月、Georgia TechとIntelの共同研究陣がある論文をarXivに掲載した — "Towards Understanding, Analyzing, and Optimizing Agentic AI Execution: A CPU-Centric Perspective"(Raj, Kundu, Vohra, Wang, Krishna · arXiv:2511.00739)。

彼らは5種類の実際のagenticワークロードを、2つのシステムで測定した:

結果 — tool処理(CPU作業)がend-to-end latencyの50~90%:

ワークロードCPU処理の比重主なCPU作業
RAG (Haystack)81~89%Tool retrieval、ベクトルDB検索
Toolformer77~88%LLM inference自体(オーケストレーション含む)
Web-Augmented Agent48~55%Summarization(Python heavy)
ChemCrow(化学)85~88%Conformer生成(分子構造)
SWE-Agent(コーディング)25~65%Bash · Python sandbox実行
📌 これが意味するもの
GPUが働いている時間よりも、GPUがidleのままCPUの結果を待っている時間のほうが長い。 100万ドルのGPUクラスタを買ったのに、そのうち半分はCPUのtool処理を待ちながら遊んでいるという意味 — つまりCPUが改善されなければGPUの稼働率は半分しか出ない

エネルギーの面でも — 大きなbatch sizeではCPUの動的エネルギー消費が全体の44~61%にまで上がった(同論文)。電力を食うのはGPUだけではない。

04CPU:GPU比率が1:8 → 1:1へ — TrendForce + Intel CEOのデータ

このワークロードの変化は、データセンター設計の根本を揺るがす。市場調査機関のTrendForce(2026年4月レポート)は、次のように整理した:

1 : 4~8
従来のLLM学習時代
CPU : GPU 比率
1 : 1~2
Agentic AI時代
CPU : GPU 比率
3,000万
従来の1GWデータセンター
CPUコア数
1.2億
Agentic 1GWデータセンター
CPUコア数(4倍)

同じ流れはIntel本社でも確認される。Intel CEOのLip-Bu Tanは、2026年第1四半期の決算発表で次のように語った:

「AI学習向けのインフラは通常、GPU 7~8個あたりCPU 1個の比率だ。だが推論へ移ると、その比率はGPU 3~4個あたりCPU 1個へと狭まる。Agentやmulti-agent環境へ移ると — この比率は1:1になるか、さらにはCPU側へやや傾くことすらありうる。」

— Lip-Bu Tan, Intel CEO · 2026 Q1 決算発表

そして同じ発表で彼が付け加えた一言が、本質を凝縮している:

"CPU is now the orchestration layer and critical control plane for the entire AI stack."

— Lip-Bu Tan, Intel CEO · 2026.04

05$38B AWS-OpenAI契約に明記された「数千万個のCPU」

理論ではなく、市場で今まさに起きていることを見てみよう。2025年11月3日、OpenAIがAWSと7年$38Bの契約を締結した。AWSとOpenAIが共同で発表した公式文書に明記された資源規模は、次のとおりだ:

📋 AWS-OpenAI 共同発表(2025.11.03)

"OpenAI is accessing AWS compute comprising hundreds of thousands of state-of-the-art NVIDIA GPUs, with the ability to expand to tens of millions of CPUs to rapidly scale agentic workloads."

数十万GPU vs 数千万CPU。単位そのものが異なる — agentic workloadの拡張には、GPUよりCPUが100倍以上の単位で必要だというOpenAIからの直接的なシグナルだ。

NVIDIA GPU(GB200・GB300)はAmazon EC2 UltraServerにクラスタリングされ、CPUは別建てで — agenticワークロード運用インフラとして明記された。すべての資源は2026年末までにオンラインになる。この1件の契約が市場に投げかけたシグナル: agent時代のインフラ = GPU + 圧倒的な量のCPU

06Agent時代のために新たに作られたCPUたち

NVIDIA Vera CPU — GPU企業が自社CPUを作った意味

最も強力なシグナル — GPU時代の絶対王者が自社CPUを発表した出来事。2026年GTCで発表されたNVIDIA Vera CPUの公式仕様:

項目NVIDIA Vera CPU
コア88 NVIDIA Olympus コア(custom Armv9.2)
プロセスTSMC N3、monolithic die + adjacent dielets
マルチスレッディングSpatial Multithreading — コア当たり2 task
メモリ帯域幅1.2 TB/s LPDDR5X · コア当たり14 GB/s
メモリ容量最大1.5 TB
GPU接続NVLink-C2C 1.8 TB/s coherent(GPUとメモリを共有)
特異点業界初のFP8 precision対応CPU
比較効率「従来CPU比で2×の効率、1.5×の速度」(NVIDIA公式)
投入2026 H2に量産開始

Veraは単体では販売されない。Vera Rubin NVL72ラック内で72個のRubin GPU + 36個のVera CPUという構成で出荷される予定だ。NVIDIAはメッセージを明確にした — 「GPUだけを買わないでください。当社のCPUと一緒に使ってください。」

その他の新規CPUたち

製品コアプロセス特徴
Arm AGI CPU136TSMC N32026.03投入 · 顧客: Meta, OpenAI, Cloudflare
AMD EPYC Venice256 (512 SMT)TSMC N22026投入予定 · 第5世代Turinの後継
Intel Xeon 6+ (Clearwater Forest)288Intel 18A2027へ遅延
AWS Graviton5192TSMC N3Arm Neoverse · AWS自社
Microsoft Cobalt 200132TSMC N3Azure自社ARM CPU
Google Axion C4A/N4A96 / 64Google Cloud自社

すべてのハイパースケーラーが自社ARMベースのデータセンターCPUを製作中であることが、本質的な変化だ。x86のデータセンター独占は事実上崩れた。ARM Neoverseが新たな標準になりつつある。

07業績データで裏付けられたCPU需要の爆発

理論や発表ではなく、2025年第4四半期の実際の売上数字がトレンドを裏付けてくれる。

AMD Q4 2025 業績(2026.02発表)

$5.4B
データセンター売上
+39% YoY · 四半期で過去最高
$10.3B
全体売上
四半期で過去最高
50%+
EPYC Turin(第5世代)
サーバー売上シェア
1,600
EPYCクラウドインスタンス
(2025年に+500個)

AMDのCFOは"large enterprises deploying on-prem EPYC more than doubled in 2025"(大企業の自社データセンターへのEPYC配備が1年で2倍になった)と明言した。そして2026年のガイダンス — "server CPU market to grow strong double digits"

Intel Q4 2025 / Q1 2026

⚠️ Intel: 需要は爆発するのに供給が不足

08全体像 — チップ覇権の階層化

2026年のAIインフラは、もはや「GPUさえあればいい」ではない。ワークロードごとにチップが分化した:

学習 (Training) — GPUが圧倒的
巨大batch · 行列積99% · NVIDIA H200/B200/Rubin · TPU v5p · AMD MI300X
推論 (Inference) — GPU + 特化ASICの競争
2026年成長率: XPU 22% · GPU 19% · CPU 14%(Futurum 2025.11)。Google TPU 8i, Groq LPU, Cerebras WSE, AWS Trainium
⭐ Agentic Orchestration — CPU復活の領域
Tool呼び出し・branching・メモリ管理。Latencyの50~90% · NVIDIA Vera, AMD EPYC, ARM AGI
Edge / On-device — NPU時代
Apple A18 Pro (35 TOPS), Snapdragon X Elite, Samsung Exynos NPU, Intel Lunar Lake AI Boost

09そこで — 5つの示唆

1. GPUが死ぬのではない。 GPUは依然として推論・学習の核心だ。ただ *GPUの領域の外側* に新たな巨大領域が生まれ、それがCPU復活の舞台になった。"GPU does the thinking, CPU does everything else" というわけだが、その *everything else* がワークロードの半分を超えた。

2. NVIDIAが自社CPU(Vera)を作ったことが最も強いシグナルだ。 単なるportfolioの拡張ではなく — agent時代にGPUの隣にあるCPUが弱点になればGPUの売上も揺らぐという認識の結果だ。NVLink-C2Cでメモリを共有するCPU+GPU統合パッケージが標準になりつつある。

3. AMDが最大の短期受益者 — EPYCが事実上agent時代の標準CPU。 Q4 2025のデータセンター+39% YoY、EPYC Turin 50%+シェア、2026年ガイダンスはstrong double digits。Intelは量産遅延で短期的に危機 — 需要が爆発しているのに供給が不足している。

4. ARMのデータセンター浸透が決定的だ。 Vera, AGI, Graviton5, Cobalt 200, Axion — すべてARM Neoverseベース。x86データセンターの独占は事実上終わった。AMD x86は当面強含みだが、5年の時間軸ではARMが30%+シェアを取りうる。

5. メモリ帯域幅が新たな戦場だ。 Veraの核心は88コアではなく1.2 TB/s LPDDR5X + 1.8 TB/s NVLink-C2Cだ。コア数競争から、メモリ帯域幅(HBM4・LPDDR5X・CXL 3.0)競争へと転換する。受益者 — SKハイニックス・マイクロン・サムスンのメモリ。

10一行の結論

2012-2024年のAIは「行列積の時代」であり — GPUが圧勝した。2025-2030年のAIは「agent orchestrationの時代」だ — CPU・GPU・NPU・メモリが共生する *heterogeneous compute* が新たな基本形になる。

NVIDIAが自社CPUを作り、AWSがOpenAI契約に「数千万CPU」を明記し、Intel CEOが"CPU is the orchestration layer"と宣言した2025-2026年が — その転換点だった。

🔑 核心インサイト(再び)

CPUの復活はGPUの敗北ではなく、agentという新たなワークロード・カテゴリーの登場がもたらした結果だ。2026年のAIインフラに関する意思決定は — 「GPUを何個買おうか」ではなく「CPU・GPU・メモリ・インターコネクトをどうバランスよく設計しようか」へと移りつつある。

📚 一次資料(Verified)

学術論文

企業の公式発表

市場分析 / 産業レポート

参考(LuckyPlzシリーズ)