AI 进化史 · EP 02

计算机拥有眼睛的
30 年故事

1989 年，在 Bell Labs 的一间研究室里，计算机第一次开始读取手写邮政编码。随后是 23 年的沉寂。2012 年秋，一个模型把 ImageNet 大赛打得粉碎 — 一切就此改变。

5 分钟阅读 2026.05.04 1989 → 2020

011989 年，开始读取邮政编码的机器

1989 年。位于 New Jersey 的 AT&T Bell Labs。一位 28 岁的法国研究者做了一场发表。他的名字是 Yann LeCun。发表内容很简单 — “我用神经网络识别了手写数字。”

📷

Yann LeCun

b.1960 · Bell Labs → NYU → Meta Chief AI Scientist

1989 年 LeNet、1998 年 LeNet-5 的缔造者。CNN（Convolutional Neural Network）事实上的创始人。2018 年与 Hinton、Bengio 共同获得图灵奖。

LeCun 打造的模型“LeNet”引入了两个核心思想。① 局部性（locality） — 一个像素只与周围的像素发生有意义的关联。② 权重共享（weight sharing） — 用同一个小型滤波器（例如 3×3）在整张图像上滑动。

正因为这两点，处理一张 100×100 黑白图像所需的权重数量从 100 万个压缩到了 9 个。它终于变得可学习了。

📮 它是怎么被用上的

AT&T 把 LeNet 实际投入到了美国邮政局的邮政编码自动分拣机中。1990 年代美国处理的手写支票与邮件中，相当一部分都是由 LeCun 的模型读取的 — 只是普通人并不知道而已。

02然而它在边缘地带停留了 23 年

自 1998 年 LeCun 发表“LeNet-5”之后，CNN 在学术界之外几乎无人提及。从 1990 年代到 2010 年代初，计算机视觉的标准并不是神经网络。SVM、HOG、SIFT 这类更简单的方法反而表现得更好。

原因很明确。要把神经网络训练好，需要 数十万到数百万张带标签的图像 + 快速的 GPU，而这两者当时都没有。整个 1990 年代，CNN 都被归类为“理论上优雅、但实际上行不通的东西”。

032012 年秋，改变一切的那场大赛

2012 年的 ImageNet 大赛（ILSVRC）。一场把 120 万张图像分类到 1,000 个类别的全球性比赛。结果在那年秋天公布。多伦多大学的一支团队以压倒性优势夺得第一 — 把 Top-5 错误率从 26.2% 一举降到 15.3%。

那个模型的名字叫“AlexNet”。缔造者有三人。

🏆

Alex Krizhevsky · Ilya Sutskever · Geoffrey Hinton

University of Toronto · NeurIPS 2012

Hinton（EP01 里的那位 Hinton）的两名博士生与他一起完成。AlexNet 用 2 块 NVIDIA GTX 580 GPU 训练了一个 8 层 CNN — 这就是一切的开端。ReLU 激活、dropout 正则化等如今的标准技法，全都在这篇论文中确立。

📌 那一天的意义

AlexNet 的 Top-5 错误率是 15.3%。第二名 ISI 日本队（传统方法）则是 26.2%。10 个百分点的差距是 ImageNet 历史上最大的一次飞跃。自那天起，所有视觉论文都转向了基于 CNN 的方法 — SVM、HOG、SIFT 实际上消失了。

于是 — 深度学习的时代正式拉开序幕。

042015 年，把网络堆到 152 层的人

2012-2014 年。所有人都想把神经网络堆得更深。AlexNet 8 层 → VGG 16 层 → 19 层。然而怪事发生了 — 一旦超过 20 层，性能反而下降。

🇨🇳

Kaiming He

Microsoft Research Asia · ResNet (2015) · arXiv:1512.03385

2015 年 12 月，在北京发表了 ResNet。核心思想只有一句 — “把某一层的输入加到该层的输出上。”这被称为 skip connection（y = F(x) + x）。这个简单的改动让网络得以训练到 152 层。

ResNet 在 ImageNet 上达到了人类水平的分类准确率（Top-5 错误率 3.57%）。而且 — 如今几乎所有视觉模型，乃至 Transformer 也都在使用 skip connection。截至 2026 年，按引用次数计算，ResNet 论文在 AI 领域稳居前一二名。

052020 年，Transformer 把视觉也吃了下来

2017 年 Google 发表的 Transformer（将在 EP03 中讲述）征服了语言处理之后，人们开始发问 — “能不能把 Transformer 用在图像上？”

2020 年 10 月，Google Research 发表了 ViT (Vision Transformer)。它把图像切成 16×16 的 patch 当作 token 处理，并学习这些 patch 之间的 attention。结果 — 在大数据集上开始超越 CNN。

🎯 但工业现场依然是 ResNet

尽管 ViT 拿下了学术 SOTA，但截至 2026 年，在实际工业（半导体检测、自动驾驶视觉、医学影像）中，基于 ResNet 的方案仍是标准。原因：在小数据集上 ResNet 更稳定，推理更快，移动端部署更容易。ViT 只有在超大模型、超大数据时才占优。

06那么，计算机的眼睛在哪里

此刻你正在使用的手机相机的自动人像识别、Tesla 自动驾驶的行人检测、Samsung、LG 半导体工厂的缺陷检测、医学 X-ray 分析 — 核心全都是 CNN（或其后裔）。

1989 年 LeCun 打造的那个只有 9 个权重的小滤波器，如今已成长为 ResNet-152 的 1000 万个权重、ViT-Huge 的 6 亿个权重。然而 “滑动一个小滤波器”这一核心思想从未改变。

下一篇（EP03）将 从 1997 年 Sepp Hochreiter 与 Jürgen Schmidhuber 打造的 LSTM 出发，一直追到 2017 年 Google 那篇“Attention is All You Need”论文以一统天下的 Transformer — 沿着计算机学会处理语言的这 20 年史一路走下去。

🧪

亲手试试 · AI Lab

亲眼看看 CNN 滤波器的滑动 →

在 8×8 的输入上滑动一个 3×3 的卷积核，看看 feature map 是如何生成的。对比 6 种卷积核（水平/垂直边缘、Sobel、blur、sharp、identity）。

AI 进化史 · 系列导航

← 上一篇

EP01 · AI 死过两次（1958→1986）

EP03 · 一篇论文统一整个 AI 的那一天

计算机拥有眼睛的30 年故事