1989 年,在 Bell Labs 的一间研究室里,计算机第一次开始读取手写邮政编码。随后是 23 年的沉寂。2012 年秋,一个模型把 ImageNet 大赛打得粉碎 — 一切就此改变。
1989 年。位于 New Jersey 的 AT&T Bell Labs。一位 28 岁的法国研究者做了一场发表。他的名字是 Yann LeCun。发表内容很简单 — “我用神经网络识别了手写数字。”
1989 年 LeNet、1998 年 LeNet-5 的缔造者。CNN(Convolutional Neural Network)事实上的创始人。2018 年与 Hinton、Bengio 共同获得图灵奖。
LeCun 打造的模型“LeNet”引入了两个核心思想。① 局部性(locality) — 一个像素只与周围的像素发生有意义的关联。② 权重共享(weight sharing) — 用同一个小型滤波器(例如 3×3)在整张图像上滑动。
正因为这两点,处理一张 100×100 黑白图像所需的权重数量从 100 万个压缩到了 9 个。它终于变得可学习了。
自 1998 年 LeCun 发表“LeNet-5”之后,CNN 在学术界之外几乎无人提及。从 1990 年代到 2010 年代初,计算机视觉的标准并不是神经网络。SVM、HOG、SIFT 这类更简单的方法反而表现得更好。
原因很明确。要把神经网络训练好,需要 数十万到数百万张带标签的图像 + 快速的 GPU,而这两者当时都没有。整个 1990 年代,CNN 都被归类为“理论上优雅、但实际上行不通的东西”。
2012 年的 ImageNet 大赛(ILSVRC)。一场把 120 万张图像分类到 1,000 个类别的全球性比赛。结果在那年秋天公布。多伦多大学的一支团队以压倒性优势夺得第一 — 把 Top-5 错误率从 26.2% 一举降到 15.3%。
那个模型的名字叫“AlexNet”。缔造者有三人。
Hinton(EP01 里的那位 Hinton)的两名博士生与他一起完成。AlexNet 用 2 块 NVIDIA GTX 580 GPU 训练了一个 8 层 CNN — 这就是一切的开端。ReLU 激活、dropout 正则化等如今的标准技法,全都在这篇论文中确立。
于是 — 深度学习的时代正式拉开序幕。
2012-2014 年。所有人都想把神经网络堆得更深。AlexNet 8 层 → VGG 16 层 → 19 层。然而怪事发生了 — 一旦超过 20 层,性能反而下降。
2015 年 12 月,在北京发表了 ResNet。核心思想只有一句 — “把某一层的输入加到该层的输出上。”这被称为 skip connection(y = F(x) + x)。这个简单的改动让网络得以训练到 152 层。
ResNet 在 ImageNet 上达到了人类水平的分类准确率(Top-5 错误率 3.57%)。而且 — 如今几乎所有视觉模型,乃至 Transformer 也都在使用 skip connection。截至 2026 年,按引用次数计算,ResNet 论文在 AI 领域稳居前一二名。
2017 年 Google 发表的 Transformer(将在 EP03 中讲述)征服了语言处理之后,人们开始发问 — “能不能把 Transformer 用在图像上?”
2020 年 10 月,Google Research 发表了 ViT (Vision Transformer)。它把图像切成 16×16 的 patch 当作 token 处理,并学习这些 patch 之间的 attention。结果 — 在大数据集上开始超越 CNN。
此刻你正在使用的手机相机的自动人像识别、Tesla 自动驾驶的行人检测、Samsung、LG 半导体工厂的缺陷检测、医学 X-ray 分析 — 核心全都是 CNN(或其后裔)。
1989 年 LeCun 打造的那个只有 9 个权重的小滤波器,如今已成长为 ResNet-152 的 1000 万个权重、ViT-Huge 的 6 亿个权重。然而 “滑动一个小滤波器”这一核心思想从未改变。
下一篇(EP03)将 从 1997 年 Sepp Hochreiter 与 Jürgen Schmidhuber 打造的 LSTM 出发,一直追到 2017 年 Google 那篇“Attention is All You Need”论文以一统天下的 Transformer — 沿着计算机学会处理语言的这 20 年史一路走下去。