AI进化史 · EP 06

从一家在家庭餐厅创立的公司
如何主宰了AI时代

1993年4月，三个人在加州圣何塞的一家Denny's里创立了公司。他们说要做游戏用的显卡。他们从未用过AI或人工智能这样的词。30年后——这家公司的市值超越了Apple和Microsoft。

6分钟 read 2026.05.05 1993 → 2026

011993年4月，某家家庭餐厅

🍔

Jensen Huang · Chris Malachowsky · Curtis Priem

NVIDIA 联合创始人 · 1993.04, San Jose Denny's · 启动资金 $40,000

30岁的台裔美国人 Jensen Huang 当时是 LSI Logic 的高管。他与 Sun Microsystems 的两名图形工程师 Chris Malachowsky 和 Curtis Priem 在圣何塞的 Denny's 家庭餐厅会面。三人就一句话达成共识——"我们来创办一家做显卡的公司吧"。6年后，他们创造出了 GPU 这个词。

1999年10月，NVIDIA 发布了一款芯片。它的名字是 GeForce 256。并且在营销文案里嵌入了一个新词——"Graphics Processing Unit (GPU)"。这个词那天第一次出现在世界上。

他们想解决的问题很简单——快速绘制3D游戏画面。一帧画面由数百万个像素组成，而每个像素都做着同一类计算（光照、纹理映射、变换）。CPU 一次只能处理一个像素，所以太慢了。"让它同时做几百个相同的计算"——这就是 GPU 的核心思路。

022007年，把GPU从游戏里拽出来的人

2000年代初，一部分学界开始了一项奇怪的尝试。"能不能用GPU来做科学计算？"但 GPU API（OpenGL、DirectX）是图形专用的——必须把矩阵乘法绕着表达成纹理合成那样的形式。太难了，所以几乎没人去做。

⚙️

Ian Buck

Stanford 博士(2004) → NVIDIA · CUDA 创始人 · 现任 NVIDIA VP

他是在 Stanford 攻读博士期间做出 BrookGPU 的人。2004年加入 NVIDIA，把同样的想法在芯片层面重新设计了一遍。结果就是——2007年6月公开的 CUDA。人们可以用普通的 C 语言来编程 GPU 了。学界的入门门槛随之消失。

032009-2012，学界发现的秘密

2009年6月，Stanford 的 Andrew Ng 团队在 ICML 上发表了一篇论文——"Large-scale Deep Unsupervised Learning using Graphics Processors"。核心结论：用 CUDA 训练的模型比 CPU 快了70倍。学界为之震惊。

然后是我们在 EP02 里看到的那个事件。2012年秋天，Hinton 的两名弟子参加了 ImageNet 大赛——Alex Krizhevsky、Ilya Sutskever。他们用来训练的 GPU 是——两块 NVIDIA GTX 580。那是家用游戏玩家的显卡。他们做出的"AlexNet"夺冠了。然后——所有的 vision 研究室都开始买 NVIDIA GPU。

📌 游戏显卡成为AI基础设施的那一刻

当时对 NVIDIA 而言，"AI"还只是一个附属类别。GeForce 面向玩家，Quadro 面向工作站。2012年 AlexNet 带来的冲击之后——Jensen Huang 在多次采访和主题演讲中留下过这样意思的回顾："当时我们没能预料到，25年后AI会成为 NVIDIA 的核心"。2017年 Volta（Tensor Core）的引入，才是迈向AI专用芯片时代的正式转折点。

042016年，Google开始造自己的芯片

2013年，Google 内部得出了一项分析——"如果现在所有用户每天只用3分钟语音识别，我们就得把数据中心扩大一倍。"答案是什么？并不是 "再多买点 NVIDIA GPU 就行"。"我们自己来造芯片"才是答案。

🔷

Norman Jouppi

Google · TPU 项目负责人 · ISCA 2017 发表 · MIPS·DEC Alpha 前设计者

他是 Stanford 博士，是在1980年代打造过 MIPS·DEC Alpha CPU 的老将。他在 Google 做出了 TPU(Tensor Processing Unit)。核心区别在于：如果说 GPU 是一颗为"各种并行计算"而生的芯片，那么 TPU 就是一颗"只把神经网络矩阵乘法做到极致"的芯片。专精于一项 task → 效率是 GPU 的30-80倍。

2016年5月，TPU v1 在 Google I/O 上公开。2016年3月的阿尔法狗对李世石五番棋，其实是由 TPU 驱动的。同一年，Google 在搜索、翻译、Photos 中全面引入了 TPU。NVIDIA——意识到了一个新的竞争对手。

052024年，所有AI公司排起了长队

2017-2026年 NVIDIA 数据中心 GPU 的脉络：

V100

2017 · Volta

首款 Tensor Core。AI 训练芯片时代开启。

A100

2020 · Ampere

训练 GPT-3。新冠时代云计算暴增。

H100

2022 · Hopper

GPT-4 训练标准。一张 $30,000+。

H200

2024 · Hopper

141GB HBM3e — SK海力士供应。

B200

2024 · Blackwell

208B 个晶体管。一块板上有2个 GPU。

GB300

2025 · Blackwell Ultra

B200 的后续。强化了推理效率。

2024年，NVIDIA 市值突破 3万亿美元，超越了 Apple 与 Microsoft。但真正令人震撼的数字是——全球数据中心 GPU 市场的90%被 NVIDIA 占据。AMD MI300、Google TPU、Amazon Trainium、Microsoft Maia 等都在发起挑战——但由于 CUDA 生态的潜在迁移成本，谁都无法轻易转移。

06还有一件事——手机里的NPU

2017年，Apple 在 iPhone X 里放进了一颗芯片。它的名字是 Apple Neural Engine。人们称之为 NPU(Neural Processing Unit)。这是一颗在手机内部直接运行 AI 模型的芯片。照片自动分类、Face ID、语音识别全都不再走云端，而是在手机里执行。

到2026年的今天，几乎所有手机芯片里都内置了 NPU。Apple A18 Pro Neural Engine (35 TOPS)、Samsung Exynos NPU、Qualcomm Hexagon、Google Tensor G4。像 Llama 3.2 1B 这样的小型 LLM 现在已经能在手机上直接运行。不必经过云端。这正是我们在 EP04 里看到的 ChatGPT 时代的下一步——"模型来到了手机上"。

🔑 GPU vs TPU vs NPU

GPU (NVIDIA)：最通用。训练、推理都能做。又贵又大。数据中心标准。
TPU (Google)：对矩阵乘法极端专精。效率压倒性。只在 Google 内部使用。
NPU (Apple/Samsung/...)：小巧高效。装进手机、笔记本、机器人。推理专用。

07那么，芯片这个故事的意义在于

在 EP01 里，我们看到了1986年 Hinton 的反向传播算法。那个算法被埋没了30年。"因为数据不足、计算机太慢"——我们在 EP02 里看到的那两个局限中的第二个，最终被解决的正是 GPU。

同样的算法，同样的数学。然而在1986年 → 2012年之间，运算速度快了100万倍以上。于是——同一个 backprop 突然开始奏效了。这正是为什么可以有这样一种视角：AI 与其说是一场算法革命，不如说是一场硬件革命。

在下一篇（EP07）里，我们将看到到目前为止的这6篇如何汇聚在一起——实际上改变了一个产业。SK海力士 Panoptes、NVIDIA cuLitho、Samsung Omniverse Twin。这是关于AI如何在半导体工厂内部运转的一线故事。

🧪

亲自动手 · AI Lab

亲自对比 CPU vs GPU 矩阵乘法 →

用 CPU（顺序）和 GPU（并行）处理同一个 8×8 矩阵乘法，直观对比两者的差异。把矩阵尺寸调大，亲眼看看差距是如何拉开的。

AI进化史 · 系列导航

← 上一篇

EP05 · 在酒吧里冒出的想法，催生了会画画的AI

EP07 · 制造AI的工厂本身也已经靠AI运转

从一家在家庭餐厅创立的公司如何主宰了AI时代