AI · 科技 · 行业分析

GPU 时代的下一站 —
为什么 Agent 又重新需要 CPU

自 2012 年 AlexNet 以来，整整 14 年都是 AI = GPU 的时代。然而 2025 年 11 月，NVIDIA 发布了自研 CPU（Vera）。AWS-OpenAI 签下了一份明确写有 「数千万个 CPU」 的 380 亿美元合约。Intel CEO 宣称 「CPU 已成为 AI 栈的编排层」。到底发生了什么变化 — 而一手资料又揭示了什么。

10 分钟阅读 2026.05.05 Industry · Hardware

⚡ TL;DR（5 行摘要）

2012-2024 · AI = 训练 = 矩阵乘法 → GPU 完胜（内存带宽 30 倍、Tensor Core、核心数 1,000 倍）
2025-2026 · AI = 推理·Agent = 工具调用·orchestration → CPU 作业占 latency 的 50~90%（Georgia Tech×Intel arXiv 2511.00739）
CPU:GPU 比例从 1:8 → 1:1 转变（TrendForce，2026）。每座 1 GW 数据中心的 CPU 核心数 3,000 万 → 1.2 亿（4 倍）
NVIDIA 在 GTC 2026 上推出自研 CPU Vera（88 核） · AWS-OpenAI 380 亿美元合约中明确写有 「数千万 CPU」 · AMD EPYC 2025 Q4 营收 同比 +39%
并不是 GPU 要消亡 — 而是 agent 的 「GPU 调用之间发生的一切」 已占据工作负载的一半以上，而那个领域正是 CPU 复兴的舞台

01首先 — 为什么 14 年来都是 GPU 的时代

2012 年 AlexNet 在 ImageNet 上夺冠，这一事件是一切的开端（参见 EP02）。Hinton 的两位弟子所使用的 GPU 是两块 NVIDIA GTX 580 — 家用游戏显卡。从那天起，所有 AI 公司都开始购买 NVIDIA GPU。

这股潮流延续 14 年的原因在于，AI 训练本质上就是矩阵乘法。神经网络的一层 = `W × x` 矩阵乘法。GPT-4 的一个 step = 约 1.5 万亿个权重的同时更新。这种作业是所有单元都 彼此独立 进行计算的 *embarrassingly parallel* — 也就是说，把同一件事同时交给数万个单元去做就完成了。

结构性差异（概览）

项目	CPU	GPU
核心数	数十个（复杂核心）	数千~数万个（简单核心）
设计哲学	Latency 优化 — 把一项作业做得更快	Throughput 优化 — 同时处理大量相同作业
内存带宽	DDR5 ~50 GB/s	HBM3e ~1,500 GB/s（≈30 倍）
专用电路	分支预测·乱序（OoO）执行·大容量缓存	Tensor Core（FMA·systolic array）
AI 训练速度	baseline	10~100×（取决于工作负载）

GPU 在「难以做分支预测的各种杂活」上较弱 — 但这在 AI 训练中并不需要。因此一块 NVIDIA H100 卖到 $30,000+，市值突破了 $4 万亿（参见 EP06）。

02然而工作负载从训练转向了推理·Agent

截至 2026 年，AI 算力中约有 2/3 发生在推理（inference） 阶段 — 这是 Deloitte 2026 Tech Trends Outlook 明确给出的数字。而在 2023 年，这一比例还只有 1/3。

而且在推理之中，Agentic AI 已成为核心 — 不是 ChatGPT 给出一次性答案，而是像 GitHub Copilot Workspace 或 Claude Computer Use 那样 使用工具、检索、评估结果、再次尝试 的形态（参见 EP08 RAG）。

Agentic AI 工作负载的一个周期由以下 5 个阶段构成：

① Planning

用户请求的 token 化 + 初步推理（目标分解）

② Orchestration

构建 task 图、并行 sub-agent 路由、数据流管理

③ Tool execution

API 调用、file I/O、JSON 解析、DB 查询、Python interpreter、web 爬取

④ Inference loop

chain-of-thought 推理 — GPU 调用之间的处理（大多为小 batch）

⑤ Reflection

输出校验、失败时重启、最终响应组装

在这 5 个阶段中，②③⑤ 是 完全的 CPU 作业，①④ 也是 GPU 与 CPU 混合。模型推理（GPU 的活）是整个周期中耗时最短的部分 — 而非一个固定比例。

032025 年 11 月的决定性论文 — 50~90% 是 CPU 作业

2025 年 11 月，Georgia Tech 与 Intel 的联合研究团队在 arXiv 上发表了一篇论文 — "Towards Understanding, Analyzing, and Optimizing Agentic AI Execution: A CPU-Centric Perspective"（Raj, Kundu, Vohra, Wang, Krishna · arXiv:2511.00739）。

他们在两套系统上测量了 5 种真实的 agentic 工作负载：

System 1：Intel Granite Rapids CPU（64 核）+ RTX-Pro 6000 GPU
System 2：NVIDIA Grace CPU（72 核）+ H200 GPU

结果 — 工具处理（CPU 作业）占端到端 latency 的 50~90%：

工作负载	CPU 处理占比	主要 CPU 作业
RAG (Haystack)	81~89%	Tool retrieval、向量 DB 检索
Toolformer	77~88%	LLM inference 本身（含 orchestration）
Web-Augmented Agent	48~55%	Summarization（Python 密集）
ChemCrow（化学）	85~88%	Conformer 生成（分子结构）
SWE-Agent（编程）	25~65%	Bash · Python sandbox 执行

📌 这意味着什么

GPU 工作的时间，比它空闲（idle）等待 CPU 结果的时间还要短。买来价值百万美元的 GPU 集群，其中一半却在等待 CPU 的工具处理而闲置 — 也就是说，如果 CPU 不提升，GPU 的利用率连一半都达不到。

在能耗方面也是如此 — 在大 batch size 下，CPU 的动态能耗占整体的比例升至 44~61%（同一论文）。吃电的不只是 GPU。

04CPU:GPU 比例从 1:8 → 1:1 — TrendForce + Intel CEO 数据

这一工作负载的变化，动摇了数据中心设计的根基。市场调研机构 TrendForce（2026 年 4 月报告）做了如下梳理：

1 : 4~8

传统 LLM 训练时代
CPU : GPU 比例

1 : 1~2

Agentic AI 时代
CPU : GPU 比例

3,000 万

传统 1GW 数据中心
CPU 核心数

1.2 亿

Agentic 1GW 数据中心
CPU 核心数（4 倍）

同样的趋势在 Intel 总部也得到了印证。Intel CEO Lip-Bu Tan 在 2026 年第一季度业绩发布会上表示：

「用于 AI 训练的基础设施，通常是每 7~8 个 GPU 配 1 个 CPU 的比例。但一旦转向推理，这个比例就收窄到每 3~4 个 GPU 配 1 个 CPU。再走向 Agent 和 multi-agent 环境 — 这个比例会变成 1:1，甚至可能略微偏向 CPU 这一侧。」

— Lip-Bu Tan, Intel CEO · 2026 Q1 业绩发布会

而在同一场发布会上，他补充的一句话，把本质浓缩到了极致：

"CPU is now the orchestration layer and critical control plane for the entire AI stack."

— Lip-Bu Tan, Intel CEO · 2026.04

05380 亿美元 AWS-OpenAI 合约中明确写有的「数千万个 CPU」

抛开理论，看看市场上当下正在发生的事。2025 年 11 月 3 日，OpenAI 与 AWS 签下了一份为期 7 年、价值 380 亿美元的合约。AWS 与 OpenAI 共同发布的官方文件中，明确标注的资源规模如下：

📋 AWS-OpenAI 联合发布（2025.11.03）

"OpenAI is accessing AWS compute comprising hundreds of thousands of state-of-the-art NVIDIA GPUs, with the ability to expand to tens of millions of CPUs to rapidly scale agentic workloads."

→ 数十万 GPU vs 数千万 CPU。数量级完全不同 — 这是 OpenAI 发出的直接信号：扩展 agentic workload 所需的 CPU，在数量级上要比 GPU 多出 100 倍以上。

NVIDIA GPU（GB200·GB300）被集群于 Amazon EC2 UltraServer 中，CPU 则另行配置 — 被明确定位为运营 agentic 工作负载的基础设施。所有资源将在 2026 年底前上线。这一份合约向市场抛出的信号是：agent 时代的基础设施 = GPU + 压倒性数量的 CPU。

06为 Agent 时代全新打造的 CPU 们

NVIDIA Vera CPU — GPU 公司自研 CPU 的意义

最强烈的信号 — GPU 时代的绝对霸主发布了自研 CPU 这件事本身。2026 年 GTC 上发布的 NVIDIA Vera CPU 的官方规格：

项目	NVIDIA Vera CPU
核心	88 个 NVIDIA Olympus 核心（custom Armv9.2）
工艺	TSMC N3, monolithic die + adjacent dielets
多线程	Spatial Multithreading — 每核 2 task
内存带宽	1.2 TB/s LPDDR5X · 每核 14 GB/s
内存容量	最高 1.5 TB
GPU 连接	NVLink-C2C 1.8 TB/s coherent（与 GPU 共享内存）
独特之处	业界首款支持 FP8 precision 的 CPU
效率对比	「相比传统 CPU 效率 2×、速度 1.5×」（NVIDIA 官方）
上市	2026 H2 开始量产

Vera 并不单独销售。它将在 Vera Rubin NVL72 机架内，以 72 个 Rubin GPU + 36 个 Vera CPU 的配置出货。NVIDIA 把信息表达得很清楚 — 「别只买 GPU，请和我们的 CPU 一起用。」

其余的新款 CPU

产品	核心	工艺	特点
Arm AGI CPU	136	TSMC N3	2026.03 上市 · 客户：Meta、OpenAI、Cloudflare
AMD EPYC Venice	256（512 SMT）	TSMC N2	预计 2026 上市 · 第 5 代 Turin 的后继
Intel Xeon 6+ (Clearwater Forest)	288	Intel 18A	延期至 2027
AWS Graviton5	192	TSMC N3	Arm Neoverse · AWS 自研
Microsoft Cobalt 200	132	TSMC N3	Azure 自研 ARM CPU
Google Axion C4A/N4A	96 / 64	—	Google Cloud 自研

所有超大规模厂商（hyperscaler）都在制造自研的基于 ARM 的数据中心 CPU，这才是本质性的变化。x86 对数据中心的垄断实际上已被打破。ARM Neoverse 正在成为新的标准。

07用业绩数据验证的 CPU 需求爆发

不是理论与发布，而是 2025 年第四季度的真实营收数字 印证了这一趋势。

AMD 2025 Q4 业绩（2026.02 发布）

$5.4B

数据中心营收
同比 +39% · 单季历史新高

$10.3B

整体营收
单季历史新高

50%+

EPYC Turin（第 5 代）
服务器营收占比

1,600

EPYC 云实例数
（2025 年 +500 个）

AMD CFO 明确表示 "large enterprises deploying on-prem EPYC more than doubled in 2025"（大型企业在自建数据中心部署 EPYC 的数量一年内翻了一倍）。并给出 2026 年指引 — "server CPU market to grow strong double digits"。

Intel 2025 Q4 / 2026 Q1

⚠️ Intel：需求爆发，供给却不足

2025 Q4 数据中心·AI 营收环比 +15% — 10 年来最快增速
CFO David Zinsner："We misjudged the pace of data center CPU demand."
中国市场 Xeon 交期 6 个月，价格上涨 +10% 以上
2026 Q1 为供给低点，预计 Q2 起回升
全球 IT 渠道商报告：2025 Q4 CPU ASP +30%

08整体图景 — 芯片权力的分层化

2026 年的 AI 基础设施，已不再是「只要有 GPU 就够了」。芯片按工作负载发生了分化：

训练 (Training) — GPU 压倒性主导

巨型 batch · 矩阵乘法占 99% · NVIDIA H200/B200/Rubin · TPU v5p · AMD MI300X

推理 (Inference) — GPU + 专用 ASIC 竞争

2026 增长率：XPU 22% · GPU 19% · CPU 14%（Futurum 2025.11）。Google TPU 8i、Groq LPU、Cerebras WSE、AWS Trainium

⭐ Agentic Orchestration — CPU 复兴领域

Tool 调用·branching·内存管理。占 Latency 的 50~90% · NVIDIA Vera、AMD EPYC、ARM AGI

Edge / On-device — NPU 时代

Apple A18 Pro（35 TOPS）、Snapdragon X Elite、Samsung Exynos NPU、Intel Lunar Lake AI Boost

09所以 — 5 点启示

1. GPU 并不会消亡。GPU 依然是推理·训练的核心。只是在 *GPU 领域之外* 出现了一个新的巨大领域，而那正是 CPU 复兴的舞台。所谓 "GPU does the thinking, CPU does everything else"，而那个 *everything else* 已经超过了工作负载的一半。

2. NVIDIA 自研 CPU（Vera）是最强烈的信号。这不是单纯的产品组合扩展，而是源于一个认知 — 在 agent 时代，如果 GPU 旁边的 CPU 成了短板，GPU 营收也会跟着动摇。通过 NVLink-C2C 共享内存的 CPU+GPU 一体化封装，正在成为标准。

3. AMD 是最大的短期受益者 — EPYC 实际上已是 agent 时代的标准 CPU。2025 Q4 数据中心同比 +39%，EPYC Turin 占比 50%+，2026 指引 strong double digits。Intel 则因量产延期陷入短期危机 — 需求爆发，供给却跟不上。

4. ARM 对数据中心的渗透是决定性的。Vera、AGI、Graviton5、Cobalt 200、Axion — 全部基于 ARM Neoverse。x86 对数据中心的垄断实际上已经终结。AMD x86 短期内仍将强势，但放眼 5 年，ARM 有望占据 30%+ 的份额。

5. 内存带宽是新的战场。Vera 的核心不在于 88 个核，而在于 1.2 TB/s LPDDR5X + 1.8 TB/s NVLink-C2C。竞争正从核心数转向内存带宽（HBM4·LPDDR5X·CXL 3.0）。受益方 — SK 海力士·美光·三星等内存厂商。

10一句话结论

2012-2024 年的 AI 是 「矩阵乘法时代」 — GPU 完胜。2025-2030 年的 AI 则是 「agent orchestration 时代」 — CPU·GPU·NPU·内存共生的 *heterogeneous compute* 成为新的基本形态。

NVIDIA 自研 CPU、AWS 在 OpenAI 合约中明确写下「数千万 CPU」、Intel CEO 宣称 "CPU is the orchestration layer" 的 2025-2026 年 — 正是那个转折点。

🔑 核心洞察（再次强调）

CPU 的复兴并非 GPU 的失败，而是 agent 这一全新工作负载类别的登场 所带来的结果。2026 年的 AI 基础设施决策正在从 「该买几块 GPU」 转向 「如何在 CPU·GPU·内存·互连之间做出均衡的设计」。

📚 一手资料 (Verified)

学术论文

Raj, Kundu, Vohra, Wang, Krishna (Nov 2025) "Towards Understanding, Analyzing, and Optimizing Agentic AI Execution: A CPU-Centric Perspective" — arXiv:2511.00739

企业官方发布

NVIDIA Launches Vera CPU, Purpose-Built for Agentic AI（2026.03 GTC）
NVIDIA Vera CPU Technical Blog — 88 cores, 1.2 TB/s LPDDR5X
AWS and OpenAI announce multi-year strategic partnership（2025.11.03, $38B, "tens of millions of CPUs"）
AMD Q4 2025 Earnings — Data center $5.4B (+39% YoY), EPYC Turin 50%+

GPU 时代的下一站 —
为什么 Agent 又重新需要 CPU

01首先 — 为什么 14 年来都是 GPU 的时代

结构性差异（概览）

02然而工作负载从训练转向了推理·Agent

032025 年 11 月的决定性论文 — 50~90% 是 CPU 作业

04CPU:GPU 比例从 1:8 → 1:1 — TrendForce + Intel CEO 数据

05380 亿美元 AWS-OpenAI 合约中明确写有的「数千万个 CPU」

06为 Agent 时代全新打造的 CPU 们

NVIDIA Vera CPU — GPU 公司自研 CPU 的意义

其余的新款 CPU

07用业绩数据验证的 CPU 需求爆发

AMD 2025 Q4 业绩（2026.02 发布）

Intel 2025 Q4 / 2026 Q1

08整体图景 — 芯片权力的分层化

09所以 — 5 点启示

10一句话结论

学术论文

企业官方发布

市场分析 / 行业报告

延伸阅读（LuckyPlz 系列）

GPU 时代的下一站 —为什么 Agent 又重新需要 CPU

01首先 — 为什么 14 年来都是 GPU 的时代

结构性差异（概览）

02然而工作负载从训练转向了推理·Agent

032025 年 11 月的决定性论文 — 50~90% 是 CPU 作业

04CPU:GPU 比例从 1:8 → 1:1 — TrendForce + Intel CEO 数据

05380 亿美元 AWS-OpenAI 合约中明确写有的「数千万个 CPU」

06为 Agent 时代全新打造的 CPU 们

NVIDIA Vera CPU — GPU 公司自研 CPU 的意义

其余的新款 CPU

07用业绩数据验证的 CPU 需求爆发

AMD 2025 Q4 业绩（2026.02 发布）

Intel 2025 Q4 / 2026 Q1

08整体图景 — 芯片权力的分层化

09所以 — 5 点启示

10一句话结论

学术论文

企业官方发布

市场分析 / 行业报告

延伸阅读（LuckyPlz 系列）

GPU 时代的下一站 —
为什么 Agent 又重新需要 CPU