1958 年登上《纽约时报》头版的"会自己学习的机器"—— 然而仅仅 11 年,它就被一本书宣判了死刑。又在 30 年的沉默之后,被 1986 年一篇论文唤醒。
1958 年 7 月 8 日。《纽约时报》以大篇幅报道了美国海军实验室的一项发布 —— "NEW NAVY DEVICE LEARNS BY DOING"。在正文中,发布者这样说道。
"美国海军公开的这台电子装置,不久之后将成为能够自己行走、说话、看见、书写、并意识到自身存在的机器的开端。"
— New York Times, 1958.07.08做出这一发布的人名叫 Frank Rosenblatt。他是康奈尔航空实验室(Cornell Aeronautical Laboratory)一位 30 岁的心理学家。他造出的机器拥有约 400 个光传感器,体积有一个巨大的柜子那么大,名为"Mark I Perceptron"。正如其名 ——"感知机(Perceptron)",这正是人工神经网络的起点。
他是第一个把"机器能像人一样识别模式"这一假设用硬件实现出来的人。他造出了一个单层神经网络,只要给它看一个字母,就能分辨出那是'A'还是'B'。研究经费由美国海军实验室提供。
感知机的工作原理很简单。把输入值乘以权重(weight),全部相加后若超过阈值就输出 1,否则输出 0。如果答案错了,就稍微调整权重。再试一次。再调整。—— 就这么简单。这正是 "机器从数据中自己学习" 这一概念首次开始运作的瞬间。
11 年后的 1969 年。MIT 的两位巨匠 ——Marvin Minsky 与 Seymour Papert 出版了一本书。书名就叫 《Perceptrons》。封面上有两个图形,中间是一个简单的问题。"这两个图形相同吗?"
两人在书中用数学证明 —— 单层感知机 绝对无法解决 XOR 这样的非线性问题。也就是说,连"两个输入中恰好只有一个为真时才为真"这样简单的逻辑都学不会。这就是它的局限。
解决办法其实很明确。叠成多层(multi-layer)就行了。 可问题在于 ——"当层数有很多个时,要如何同时训练每一层的权重?"—— 这个问题没有人能回答。
1986 年 10 月。Nature 第 323 期,第 533–536 页。一篇仅有 6 页的论文刊登了出来。标题是 "Learning representations by back-propagating errors"。作者有三人。
核心思想只有一句 ——"把微分的 chain rule 从输出端向输入端反向应用,一次性算出所有权重的梯度。"这就是我们所熟知的 反向传播(backpropagation)。
反向传播的意义很明确。如今 即便叠成多层也能完成学习了。Minsky 那个搁置了 17 年的批评 —— 解不开 XOR 的局限 —— 被解开了。多层神经网络时代的大门由此打开。
"这个算法太强大了,以至于 40 年后的今天,所有神经网络仍然以完全相同的方式学习。"
— ChatGPT、GPT-4、Stable Diffusion、Claude —— 全都是用 backprop 训练的反向传播被发明出来,并不意味着 AI 立刻就爆发了。整个 1990 年代,神经网络再次沦为边缘。原因有两个。
于是神经网络从 1990 年代后期一直到 2010 年前后,又一次度过了 第二次 AI 寒冬。只有学术界的一小部分人 —— Hinton、Yann LeCun、Yoshua Bengio —— 守住了那一点火种。他们后来被称为"深度学习教父",并于 2018 年共同获得了图灵奖。
1958 年一次,1990 年代又一次。而每一次,都是 一个人物 + 一篇论文 让它复活。1986 年是 Hinton 的反向传播,2012 年是 Krizhevsky 的 AlexNet。
如今我们所用的 ChatGPT、Stable Diffusion、自动驾驶、半导体工厂里的 AI —— 它们的根源,都在 1958 年 Rosenblatt 那台柜子大小的机器里。而它们的学习方式,正是 1986 年 Hinton 整理出的反向传播本身。
下一篇(EP02)将进入 1989 年 Yann LeCun 让机器识别手写邮政编码,由此开启的'CNN 时代'。他在 Bell Labs 造出的'LeNet',又是如何在 30 年后一路延伸到我们手机的摄像头里的呢。