1993年4月,三个人在加州圣何塞的一家Denny's里创立了公司。他们说要做游戏用的显卡。他们从未用过AI或人工智能这样的词。30年后——这家公司的市值超越了Apple和Microsoft。
30岁的台裔美国人 Jensen Huang 当时是 LSI Logic 的高管。他与 Sun Microsystems 的两名图形工程师 Chris Malachowsky 和 Curtis Priem 在圣何塞的 Denny's 家庭餐厅会面。三人就一句话达成共识——"我们来创办一家做显卡的公司吧"。6年后,他们创造出了 GPU 这个词。
1999年10月,NVIDIA 发布了一款芯片。它的名字是 GeForce 256。并且在营销文案里嵌入了一个新词——"Graphics Processing Unit (GPU)"。这个词那天第一次出现在世界上。
他们想解决的问题很简单——快速绘制3D游戏画面。一帧画面由数百万个像素组成,而每个像素都做着同一类计算(光照、纹理映射、变换)。CPU 一次只能处理一个像素,所以太慢了。"让它同时做几百个相同的计算"——这就是 GPU 的核心思路。
2000年代初,一部分学界开始了一项奇怪的尝试。"能不能用GPU来做科学计算?"但 GPU API(OpenGL、DirectX)是图形专用的——必须把矩阵乘法绕着表达成纹理合成那样的形式。太难了,所以几乎没人去做。
他是在 Stanford 攻读博士期间做出 BrookGPU 的人。2004年加入 NVIDIA,把同样的想法在芯片层面重新设计了一遍。结果就是——2007年6月公开的 CUDA。人们可以用普通的 C 语言来编程 GPU 了。学界的入门门槛随之消失。
2009年6月,Stanford 的 Andrew Ng 团队在 ICML 上发表了一篇论文——"Large-scale Deep Unsupervised Learning using Graphics Processors"。核心结论:用 CUDA 训练的模型比 CPU 快了70倍。学界为之震惊。
然后是我们在 EP02 里看到的那个事件。2012年秋天,Hinton 的两名弟子参加了 ImageNet 大赛——Alex Krizhevsky、Ilya Sutskever。他们用来训练的 GPU 是——两块 NVIDIA GTX 580。那是家用游戏玩家的显卡。他们做出的"AlexNet"夺冠了。然后——所有的 vision 研究室都开始买 NVIDIA GPU。
2013年,Google 内部得出了一项分析——"如果现在所有用户每天只用3分钟语音识别,我们就得把数据中心扩大一倍。"答案是什么?并不是 "再多买点 NVIDIA GPU 就行"。"我们自己来造芯片"才是答案。
他是 Stanford 博士,是在1980年代打造过 MIPS·DEC Alpha CPU 的老将。他在 Google 做出了 TPU(Tensor Processing Unit)。核心区别在于:如果说 GPU 是一颗为"各种并行计算"而生的芯片,那么 TPU 就是一颗"只把神经网络矩阵乘法做到极致"的芯片。专精于一项 task → 效率是 GPU 的30-80倍。
2016年5月,TPU v1 在 Google I/O 上公开。2016年3月的阿尔法狗对李世石五番棋,其实是由 TPU 驱动的。同一年,Google 在搜索、翻译、Photos 中全面引入了 TPU。NVIDIA——意识到了一个新的竞争对手。
2017-2026年 NVIDIA 数据中心 GPU 的脉络:
2024年,NVIDIA 市值突破 3万亿美元,超越了 Apple 与 Microsoft。但真正令人震撼的数字是——全球数据中心 GPU 市场的90%被 NVIDIA 占据。AMD MI300、Google TPU、Amazon Trainium、Microsoft Maia 等都在发起挑战——但由于 CUDA 生态的潜在迁移成本,谁都无法轻易转移。
2017年,Apple 在 iPhone X 里放进了一颗芯片。它的名字是 Apple Neural Engine。人们称之为 NPU(Neural Processing Unit)。这是一颗在手机内部直接运行 AI 模型的芯片。照片自动分类、Face ID、语音识别全都不再走云端,而是在手机里执行。
到2026年的今天,几乎所有手机芯片里都内置了 NPU。Apple A18 Pro Neural Engine (35 TOPS)、Samsung Exynos NPU、Qualcomm Hexagon、Google Tensor G4。像 Llama 3.2 1B 这样的小型 LLM 现在已经能在手机上直接运行。不必经过云端。这正是我们在 EP04 里看到的 ChatGPT 时代的下一步——"模型来到了手机上"。
在 EP01 里,我们看到了1986年 Hinton 的反向传播算法。那个算法被埋没了30年。"因为数据不足、计算机太慢"——我们在 EP02 里看到的那两个局限中的第二个,最终被解决的正是 GPU。
同样的算法,同样的数学。然而在1986年 → 2012年之间,运算速度快了100万倍以上。于是——同一个 backprop 突然开始奏效了。这正是为什么可以有这样一种视角:AI 与其说是一场算法革命,不如说是一场硬件革命。
在下一篇(EP07)里,我们将看到到目前为止的这6篇如何汇聚在一起——实际上改变了一个产业。SK海力士 Panoptes、NVIDIA cuLitho、Samsung Omniverse Twin。这是关于AI如何在半导体工厂内部运转的一线故事。