📌 以信息提供为目的的行业分析 · 本文基于 2025-2026 年公开的一手资料(arXiv 论文、企业 IR、官方发布)进行分析。并非对特定标的的买卖建议,投资判断由本人负责。
AI · 科技 · 行业分析

GPU 时代的下一站 —
为什么 Agent 又重新需要 CPU

自 2012 年 AlexNet 以来,整整 14 年都是 AI = GPU 的时代。然而 2025 年 11 月,NVIDIA 发布了自研 CPU(Vera)。AWS-OpenAI 签下了一份明确写有 「数千万个 CPU」 的 380 亿美元合约。Intel CEO 宣称 「CPU 已成为 AI 栈的编排层」。到底发生了什么变化 — 而一手资料又揭示了什么。

10 分钟阅读 2026.05.05 Industry · Hardware
⚡ TL;DR(5 行摘要)

01首先 — 为什么 14 年来都是 GPU 的时代

2012 年 AlexNet 在 ImageNet 上夺冠,这一事件是一切的开端(参见 EP02)。Hinton 的两位弟子所使用的 GPU 是两块 NVIDIA GTX 580 — 家用游戏显卡。从那天起,所有 AI 公司都开始购买 NVIDIA GPU

这股潮流延续 14 年的原因在于,AI 训练本质上就是矩阵乘法。神经网络的一层 = `W × x` 矩阵乘法。GPT-4 的一个 step = 约 1.5 万亿个权重的同时更新。这种作业是所有单元都 彼此独立 进行计算的 *embarrassingly parallel* — 也就是说,把同一件事同时交给数万个单元去做就完成了。

结构性差异(概览)

项目CPUGPU
核心数数十个(复杂核心)数千~数万个(简单核心)
设计哲学Latency 优化 — 把一项作业做得更快Throughput 优化 — 同时处理大量相同作业
内存带宽DDR5 ~50 GB/sHBM3e ~1,500 GB/s(≈30 倍)
专用电路分支预测·乱序(OoO)执行·大容量缓存Tensor Core(FMA·systolic array)
AI 训练速度baseline10~100×(取决于工作负载)

GPU 在「难以做分支预测的各种杂活」上较弱 — 但这在 AI 训练中并不需要。因此一块 NVIDIA H100 卖到 $30,000+,市值突破了 $4 万亿(参见 EP06)。

02然而工作负载从训练转向了推理·Agent

截至 2026 年,AI 算力中约有 2/3 发生在推理(inference) 阶段 — 这是 Deloitte 2026 Tech Trends Outlook 明确给出的数字。而在 2023 年,这一比例还只有 1/3。

而且在推理之中,Agentic AI 已成为核心 — 不是 ChatGPT 给出一次性答案,而是像 GitHub Copilot Workspace 或 Claude Computer Use 那样 使用工具、检索、评估结果、再次尝试 的形态(参见 EP08 RAG)。

Agentic AI 工作负载的一个周期由以下 5 个阶段构成:

① Planning
用户请求的 token 化 + 初步推理(目标分解)
② Orchestration
构建 task 图、并行 sub-agent 路由、数据流管理
③ Tool execution
API 调用、file I/O、JSON 解析、DB 查询、Python interpreter、web 爬取
④ Inference loop
chain-of-thought 推理 — GPU 调用之间的处理(大多为小 batch)
⑤ Reflection
输出校验、失败时重启、最终响应组装

在这 5 个阶段中,②③⑤ 是 完全的 CPU 作业,①④ 也是 GPU 与 CPU 混合。模型推理(GPU 的活)是整个周期中耗时最短的部分 — 而非一个固定比例。

032025 年 11 月的决定性论文 — 50~90% 是 CPU 作业

2025 年 11 月,Georgia Tech 与 Intel 的联合研究团队在 arXiv 上发表了一篇论文 — "Towards Understanding, Analyzing, and Optimizing Agentic AI Execution: A CPU-Centric Perspective"(Raj, Kundu, Vohra, Wang, Krishna · arXiv:2511.00739)。

他们在两套系统上测量了 5 种真实的 agentic 工作负载:

结果 — 工具处理(CPU 作业)占端到端 latency 的 50~90%

工作负载CPU 处理占比主要 CPU 作业
RAG (Haystack)81~89%Tool retrieval、向量 DB 检索
Toolformer77~88%LLM inference 本身(含 orchestration)
Web-Augmented Agent48~55%Summarization(Python 密集)
ChemCrow(化学)85~88%Conformer 生成(分子结构)
SWE-Agent(编程)25~65%Bash · Python sandbox 执行
📌 这意味着什么
GPU 工作的时间,比它空闲(idle)等待 CPU 结果的时间还要短。买来价值百万美元的 GPU 集群,其中一半却在等待 CPU 的工具处理而闲置 — 也就是说,如果 CPU 不提升,GPU 的利用率连一半都达不到

在能耗方面也是如此 — 在大 batch size 下,CPU 的动态能耗占整体的比例升至 44~61%(同一论文)。吃电的不只是 GPU。

04CPU:GPU 比例从 1:8 → 1:1 — TrendForce + Intel CEO 数据

这一工作负载的变化,动摇了数据中心设计的根基。市场调研机构 TrendForce(2026 年 4 月报告)做了如下梳理:

1 : 4~8
传统 LLM 训练时代
CPU : GPU 比例
1 : 1~2
Agentic AI 时代
CPU : GPU 比例
3,000 万
传统 1GW 数据中心
CPU 核心数
1.2 亿
Agentic 1GW 数据中心
CPU 核心数(4 倍)

同样的趋势在 Intel 总部也得到了印证。Intel CEO Lip-Bu Tan 在 2026 年第一季度业绩发布会上表示:

「用于 AI 训练的基础设施,通常是每 7~8 个 GPU 配 1 个 CPU 的比例。但一旦转向推理,这个比例就收窄到每 3~4 个 GPU 配 1 个 CPU。再走向 Agent 和 multi-agent 环境 — 这个比例会变成 1:1,甚至可能略微偏向 CPU 这一侧。」

— Lip-Bu Tan, Intel CEO · 2026 Q1 业绩发布会

而在同一场发布会上,他补充的一句话,把本质浓缩到了极致:

"CPU is now the orchestration layer and critical control plane for the entire AI stack."

— Lip-Bu Tan, Intel CEO · 2026.04

05380 亿美元 AWS-OpenAI 合约中明确写有的「数千万个 CPU」

抛开理论,看看市场上当下正在发生的事。2025 年 11 月 3 日,OpenAI 与 AWS 签下了一份为期 7 年、价值 380 亿美元的合约。AWS 与 OpenAI 共同发布的官方文件中,明确标注的资源规模如下:

📋 AWS-OpenAI 联合发布(2025.11.03)

"OpenAI is accessing AWS compute comprising hundreds of thousands of state-of-the-art NVIDIA GPUs, with the ability to expand to tens of millions of CPUs to rapidly scale agentic workloads."

数十万 GPU vs 数千万 CPU。数量级完全不同 — 这是 OpenAI 发出的直接信号:扩展 agentic workload 所需的 CPU,在数量级上要比 GPU 多出 100 倍以上。

NVIDIA GPU(GB200·GB300)被集群于 Amazon EC2 UltraServer 中,CPU 则另行配置 — 被明确定位为运营 agentic 工作负载的基础设施。所有资源将在 2026 年底前上线。这一份合约向市场抛出的信号是:agent 时代的基础设施 = GPU + 压倒性数量的 CPU

06为 Agent 时代全新打造的 CPU 们

NVIDIA Vera CPU — GPU 公司自研 CPU 的意义

最强烈的信号 — GPU 时代的绝对霸主发布了自研 CPU 这件事本身。2026 年 GTC 上发布的 NVIDIA Vera CPU 的官方规格:

项目NVIDIA Vera CPU
核心88 个 NVIDIA Olympus 核心(custom Armv9.2)
工艺TSMC N3, monolithic die + adjacent dielets
多线程Spatial Multithreading — 每核 2 task
内存带宽1.2 TB/s LPDDR5X · 每核 14 GB/s
内存容量最高 1.5 TB
GPU 连接NVLink-C2C 1.8 TB/s coherent(与 GPU 共享内存)
独特之处业界首款 支持 FP8 precision 的 CPU
效率对比「相比传统 CPU 效率 2×、速度 1.5×」(NVIDIA 官方)
上市2026 H2 开始量产

Vera 并不单独销售。它将在 Vera Rubin NVL72 机架内,以 72 个 Rubin GPU + 36 个 Vera CPU 的配置出货。NVIDIA 把信息表达得很清楚 — 「别只买 GPU,请和我们的 CPU 一起用。」

其余的新款 CPU

产品核心工艺特点
Arm AGI CPU136TSMC N32026.03 上市 · 客户:Meta、OpenAI、Cloudflare
AMD EPYC Venice256(512 SMT)TSMC N2预计 2026 上市 · 第 5 代 Turin 的后继
Intel Xeon 6+ (Clearwater Forest)288Intel 18A延期至 2027
AWS Graviton5192TSMC N3Arm Neoverse · AWS 自研
Microsoft Cobalt 200132TSMC N3Azure 自研 ARM CPU
Google Axion C4A/N4A96 / 64Google Cloud 自研

所有超大规模厂商(hyperscaler)都在制造自研的基于 ARM 的数据中心 CPU,这才是本质性的变化。x86 对数据中心的垄断实际上已被打破。ARM Neoverse 正在成为新的标准。

07用业绩数据验证的 CPU 需求爆发

不是理论与发布,而是 2025 年第四季度的真实营收数字 印证了这一趋势。

AMD 2025 Q4 业绩(2026.02 发布)

$5.4B
数据中心营收
同比 +39% · 单季历史新高
$10.3B
整体营收
单季历史新高
50%+
EPYC Turin(第 5 代)
服务器营收占比
1,600
EPYC 云实例数
(2025 年 +500 个)

AMD CFO 明确表示 "large enterprises deploying on-prem EPYC more than doubled in 2025"(大型企业在自建数据中心部署 EPYC 的数量一年内翻了一倍)。并给出 2026 年指引 — "server CPU market to grow strong double digits"

Intel 2025 Q4 / 2026 Q1

⚠️ Intel:需求爆发,供给却不足

08整体图景 — 芯片权力的分层化

2026 年的 AI 基础设施,已不再是「只要有 GPU 就够了」。芯片按工作负载发生了分化:

训练 (Training) — GPU 压倒性主导
巨型 batch · 矩阵乘法占 99% · NVIDIA H200/B200/Rubin · TPU v5p · AMD MI300X
推理 (Inference) — GPU + 专用 ASIC 竞争
2026 增长率:XPU 22% · GPU 19% · CPU 14%(Futurum 2025.11)。Google TPU 8i、Groq LPU、Cerebras WSE、AWS Trainium
⭐ Agentic Orchestration — CPU 复兴领域
Tool 调用·branching·内存管理。占 Latency 的 50~90% · NVIDIA Vera、AMD EPYC、ARM AGI
Edge / On-device — NPU 时代
Apple A18 Pro(35 TOPS)、Snapdragon X Elite、Samsung Exynos NPU、Intel Lunar Lake AI Boost

09所以 — 5 点启示

1. GPU 并不会消亡。GPU 依然是推理·训练的核心。只是在 *GPU 领域之外* 出现了一个新的巨大领域,而那正是 CPU 复兴的舞台。所谓 "GPU does the thinking, CPU does everything else",而那个 *everything else* 已经超过了工作负载的一半。

2. NVIDIA 自研 CPU(Vera)是最强烈的信号。这不是单纯的产品组合扩展,而是源于一个认知 — 在 agent 时代,如果 GPU 旁边的 CPU 成了短板,GPU 营收也会跟着动摇。通过 NVLink-C2C 共享内存的 CPU+GPU 一体化封装,正在成为标准。

3. AMD 是最大的短期受益者 — EPYC 实际上已是 agent 时代的标准 CPU。2025 Q4 数据中心同比 +39%,EPYC Turin 占比 50%+,2026 指引 strong double digits。Intel 则因量产延期陷入短期危机 — 需求爆发,供给却跟不上。

4. ARM 对数据中心的渗透是决定性的。Vera、AGI、Graviton5、Cobalt 200、Axion — 全部基于 ARM Neoverse。x86 对数据中心的垄断实际上已经终结。AMD x86 短期内仍将强势,但放眼 5 年,ARM 有望占据 30%+ 的份额。

5. 内存带宽是新的战场。Vera 的核心不在于 88 个核,而在于 1.2 TB/s LPDDR5X + 1.8 TB/s NVLink-C2C。竞争正从核心数转向内存带宽(HBM4·LPDDR5X·CXL 3.0)。受益方 — SK 海力士·美光·三星等内存厂商。

10一句话结论

2012-2024 年的 AI 是 「矩阵乘法时代」 — GPU 完胜。2025-2030 年的 AI 则是 「agent orchestration 时代」 — CPU·GPU·NPU·内存共生的 *heterogeneous compute* 成为新的基本形态。

NVIDIA 自研 CPU、AWS 在 OpenAI 合约中明确写下「数千万 CPU」、Intel CEO 宣称 "CPU is the orchestration layer" 的 2025-2026 年 — 正是那个转折点。

🔑 核心洞察(再次强调)

CPU 的复兴并非 GPU 的失败,而是 agent 这一全新工作负载类别的登场 所带来的结果。2026 年的 AI 基础设施决策正在从 「该买几块 GPU」 转向 「如何在 CPU·GPU·内存·互连之间做出均衡的设计」

📚 一手资料 (Verified)

学术论文

企业官方发布

市场分析 / 行业报告

延伸阅读(LuckyPlz 系列)