自 2012 年 AlexNet 以来,整整 14 年都是 AI = GPU 的时代。然而 2025 年 11 月,NVIDIA 发布了自研 CPU(Vera)。AWS-OpenAI 签下了一份明确写有 「数千万个 CPU」 的 380 亿美元合约。Intel CEO 宣称 「CPU 已成为 AI 栈的编排层」。到底发生了什么变化 — 而一手资料又揭示了什么。
2012 年 AlexNet 在 ImageNet 上夺冠,这一事件是一切的开端(参见 EP02)。Hinton 的两位弟子所使用的 GPU 是两块 NVIDIA GTX 580 — 家用游戏显卡。从那天起,所有 AI 公司都开始购买 NVIDIA GPU。
这股潮流延续 14 年的原因在于,AI 训练本质上就是矩阵乘法。神经网络的一层 = `W × x` 矩阵乘法。GPT-4 的一个 step = 约 1.5 万亿个权重的同时更新。这种作业是所有单元都 彼此独立 进行计算的 *embarrassingly parallel* — 也就是说,把同一件事同时交给数万个单元去做就完成了。
| 项目 | CPU | GPU |
|---|---|---|
| 核心数 | 数十个(复杂核心) | 数千~数万个(简单核心) |
| 设计哲学 | Latency 优化 — 把一项作业做得更快 | Throughput 优化 — 同时处理大量相同作业 |
| 内存带宽 | DDR5 ~50 GB/s | HBM3e ~1,500 GB/s(≈30 倍) |
| 专用电路 | 分支预测·乱序(OoO)执行·大容量缓存 | Tensor Core(FMA·systolic array) |
| AI 训练速度 | baseline | 10~100×(取决于工作负载) |
GPU 在「难以做分支预测的各种杂活」上较弱 — 但这在 AI 训练中并不需要。因此一块 NVIDIA H100 卖到 $30,000+,市值突破了 $4 万亿(参见 EP06)。
截至 2026 年,AI 算力中约有 2/3 发生在推理(inference) 阶段 — 这是 Deloitte 2026 Tech Trends Outlook 明确给出的数字。而在 2023 年,这一比例还只有 1/3。
而且在推理之中,Agentic AI 已成为核心 — 不是 ChatGPT 给出一次性答案,而是像 GitHub Copilot Workspace 或 Claude Computer Use 那样 使用工具、检索、评估结果、再次尝试 的形态(参见 EP08 RAG)。
Agentic AI 工作负载的一个周期由以下 5 个阶段构成:
在这 5 个阶段中,②③⑤ 是 完全的 CPU 作业,①④ 也是 GPU 与 CPU 混合。模型推理(GPU 的活)是整个周期中耗时最短的部分 — 而非一个固定比例。
2025 年 11 月,Georgia Tech 与 Intel 的联合研究团队在 arXiv 上发表了一篇论文 — "Towards Understanding, Analyzing, and Optimizing Agentic AI Execution: A CPU-Centric Perspective"(Raj, Kundu, Vohra, Wang, Krishna · arXiv:2511.00739)。
他们在两套系统上测量了 5 种真实的 agentic 工作负载:
结果 — 工具处理(CPU 作业)占端到端 latency 的 50~90%:
| 工作负载 | CPU 处理占比 | 主要 CPU 作业 |
|---|---|---|
| RAG (Haystack) | 81~89% | Tool retrieval、向量 DB 检索 |
| Toolformer | 77~88% | LLM inference 本身(含 orchestration) |
| Web-Augmented Agent | 48~55% | Summarization(Python 密集) |
| ChemCrow(化学) | 85~88% | Conformer 生成(分子结构) |
| SWE-Agent(编程) | 25~65% | Bash · Python sandbox 执行 |
在能耗方面也是如此 — 在大 batch size 下,CPU 的动态能耗占整体的比例升至 44~61%(同一论文)。吃电的不只是 GPU。
这一工作负载的变化,动摇了数据中心设计的根基。市场调研机构 TrendForce(2026 年 4 月报告)做了如下梳理:
同样的趋势在 Intel 总部也得到了印证。Intel CEO Lip-Bu Tan 在 2026 年第一季度业绩发布会上表示:
「用于 AI 训练的基础设施,通常是每 7~8 个 GPU 配 1 个 CPU 的比例。但一旦转向推理,这个比例就收窄到每 3~4 个 GPU 配 1 个 CPU。再走向 Agent 和 multi-agent 环境 — 这个比例会变成 1:1,甚至可能略微偏向 CPU 这一侧。」
— Lip-Bu Tan, Intel CEO · 2026 Q1 业绩发布会而在同一场发布会上,他补充的一句话,把本质浓缩到了极致:
"CPU is now the orchestration layer and critical control plane for the entire AI stack."
— Lip-Bu Tan, Intel CEO · 2026.04抛开理论,看看市场上当下正在发生的事。2025 年 11 月 3 日,OpenAI 与 AWS 签下了一份为期 7 年、价值 380 亿美元的合约。AWS 与 OpenAI 共同发布的官方文件中,明确标注的资源规模如下:
"OpenAI is accessing AWS compute comprising hundreds of thousands of state-of-the-art NVIDIA GPUs, with the ability to expand to tens of millions of CPUs to rapidly scale agentic workloads."
→ 数十万 GPU vs 数千万 CPU。数量级完全不同 — 这是 OpenAI 发出的直接信号:扩展 agentic workload 所需的 CPU,在数量级上要比 GPU 多出 100 倍以上。
NVIDIA GPU(GB200·GB300)被集群于 Amazon EC2 UltraServer 中,CPU 则另行配置 — 被明确定位为运营 agentic 工作负载的基础设施。所有资源将在 2026 年底前上线。这一份合约向市场抛出的信号是:agent 时代的基础设施 = GPU + 压倒性数量的 CPU。
最强烈的信号 — GPU 时代的绝对霸主发布了自研 CPU 这件事本身。2026 年 GTC 上发布的 NVIDIA Vera CPU 的官方规格:
| 项目 | NVIDIA Vera CPU |
|---|---|
| 核心 | 88 个 NVIDIA Olympus 核心(custom Armv9.2) |
| 工艺 | TSMC N3, monolithic die + adjacent dielets |
| 多线程 | Spatial Multithreading — 每核 2 task |
| 内存带宽 | 1.2 TB/s LPDDR5X · 每核 14 GB/s |
| 内存容量 | 最高 1.5 TB |
| GPU 连接 | NVLink-C2C 1.8 TB/s coherent(与 GPU 共享内存) |
| 独特之处 | 业界首款 支持 FP8 precision 的 CPU |
| 效率对比 | 「相比传统 CPU 效率 2×、速度 1.5×」(NVIDIA 官方) |
| 上市 | 2026 H2 开始量产 |
Vera 并不单独销售。它将在 Vera Rubin NVL72 机架内,以 72 个 Rubin GPU + 36 个 Vera CPU 的配置出货。NVIDIA 把信息表达得很清楚 — 「别只买 GPU,请和我们的 CPU 一起用。」
| 产品 | 核心 | 工艺 | 特点 |
|---|---|---|---|
| Arm AGI CPU | 136 | TSMC N3 | 2026.03 上市 · 客户:Meta、OpenAI、Cloudflare |
| AMD EPYC Venice | 256(512 SMT) | TSMC N2 | 预计 2026 上市 · 第 5 代 Turin 的后继 |
| Intel Xeon 6+ (Clearwater Forest) | 288 | Intel 18A | 延期至 2027 |
| AWS Graviton5 | 192 | TSMC N3 | Arm Neoverse · AWS 自研 |
| Microsoft Cobalt 200 | 132 | TSMC N3 | Azure 自研 ARM CPU |
| Google Axion C4A/N4A | 96 / 64 | — | Google Cloud 自研 |
所有超大规模厂商(hyperscaler)都在制造自研的基于 ARM 的数据中心 CPU,这才是本质性的变化。x86 对数据中心的垄断实际上已被打破。ARM Neoverse 正在成为新的标准。
不是理论与发布,而是 2025 年第四季度的真实营收数字 印证了这一趋势。
AMD CFO 明确表示 "large enterprises deploying on-prem EPYC more than doubled in 2025"(大型企业在自建数据中心部署 EPYC 的数量一年内翻了一倍)。并给出 2026 年指引 — "server CPU market to grow strong double digits"。
2026 年的 AI 基础设施,已不再是「只要有 GPU 就够了」。芯片按工作负载发生了分化:
1. GPU 并不会消亡。GPU 依然是推理·训练的核心。只是在 *GPU 领域之外* 出现了一个新的巨大领域,而那正是 CPU 复兴的舞台。所谓 "GPU does the thinking, CPU does everything else",而那个 *everything else* 已经超过了工作负载的一半。
2. NVIDIA 自研 CPU(Vera)是最强烈的信号。这不是单纯的产品组合扩展,而是源于一个认知 — 在 agent 时代,如果 GPU 旁边的 CPU 成了短板,GPU 营收也会跟着动摇。通过 NVLink-C2C 共享内存的 CPU+GPU 一体化封装,正在成为标准。
3. AMD 是最大的短期受益者 — EPYC 实际上已是 agent 时代的标准 CPU。2025 Q4 数据中心同比 +39%,EPYC Turin 占比 50%+,2026 指引 strong double digits。Intel 则因量产延期陷入短期危机 — 需求爆发,供给却跟不上。
4. ARM 对数据中心的渗透是决定性的。Vera、AGI、Graviton5、Cobalt 200、Axion — 全部基于 ARM Neoverse。x86 对数据中心的垄断实际上已经终结。AMD x86 短期内仍将强势,但放眼 5 年,ARM 有望占据 30%+ 的份额。
5. 内存带宽是新的战场。Vera 的核心不在于 88 个核,而在于 1.2 TB/s LPDDR5X + 1.8 TB/s NVLink-C2C。竞争正从核心数转向内存带宽(HBM4·LPDDR5X·CXL 3.0)。受益方 — SK 海力士·美光·三星等内存厂商。
2012-2024 年的 AI 是 「矩阵乘法时代」 — GPU 完胜。2025-2030 年的 AI 则是 「agent orchestration 时代」 — CPU·GPU·NPU·内存共生的 *heterogeneous compute* 成为新的基本形态。
NVIDIA 自研 CPU、AWS 在 OpenAI 合约中明确写下「数千万 CPU」、Intel CEO 宣称 "CPU is the orchestration layer" 的 2025-2026 年 — 正是那个转折点。
CPU 的复兴并非 GPU 的失败,而是 agent 这一全新工作负载类别的登场 所带来的结果。2026 年的 AI 基础设施决策正在从 「该买几块 GPU」 转向 「如何在 CPU·GPU·内存·互连之间做出均衡的设计」。