AI进化史 · EP 03

一篇论文统一
整个AI的那一天

2017年6月12日。Google Brain的8个人把一篇论文上传到了arXiv。标题极具挑衅意味 — "Attention is All You Need." 那一天之后过去了9年，如今AI研究的99%都运转在这篇论文之上。

5分钟阅读 2026.05.04 1997 → 2017

01首先 — RNN短暂的幸福

1980年代后期。Michael Jordan（不是那位篮球的Jordan）和Jeffrey Elman提出了RNN（Recurrent Neural Network，循环神经网络）。想法很简单 — "把昨天的输出和当前的输入一起喂进去，就能处理序列。"

理论上很优雅。因为它可以原样学习一条时间流。但有个问题 — 在长句子里会忘掉一开始看到的词。用数学来说就是'vanishing gradient'（梯度消失）问题。只要超过10个词，第一个词的影响就几乎消失了。

021997年，两个德国人造出了'不会忘记的RNN'

1997年。在德国慕尼黑工业大学攻读博士的一个人，和他的导师一起发表了一篇论文。标题是"Long Short-Term Memory"。简称LSTM。

🧬

Sepp Hochreiter & Jürgen Schmidhuber

TU Munich · 1997 · Neural Computation 9(8):1735-1780

核心思想 — 在神经网络里设置3个门。① forget gate：决定昨天的记忆中要忘掉什么，② input gate：决定新信息中要接收什么，③ output gate：决定现在要输出什么。每个门都会学习一个0~1的值并自动决定。

LSTM解决了RNN的'vanishing'问题。即便是相隔100个词的依赖关系也能学习。2014~2017年是LSTM的黄金时代 — Google翻译、Apple Siri、Amazon Alexa全都基于LSTM。

032014年，Google给LSTM装上了两个脑袋

2014年12月NeurIPS。曾在多伦多大学师从Hinton的一位博士生转投Google Brain，发表了一篇论文 — "Sequence to Sequence Learning with Neural Networks."

📐

Ilya Sutskever · Oriol Vinyals · Quoc V. Le

Google Brain · NeurIPS 2014

"Encoder-Decoder"结构的开端。一个LSTM把输入句子整体压缩（encoder），另一个LSTM接过它并依次生成输出句子（decoder）。应用到英语→法语翻译上，取得了当时的最佳性能（BLEU 34.8）。Sutskever就是EP01里Hinton的那位弟子，EP02 AlexNet的共同作者，日后OpenAI的联合创始人。

⚠️ 然而有一个致命的问题

Encoder把整个输入句子压缩成一个固定大小的向量。短句子还OK，长句子的信息损失就太多了。要把一个50个词的句子塞进一个向量，几乎是不可能的。

2015年Bengio小组加入了一个叫'attention'的辅助机制，部分解决了这个问题，但从本质上看，LSTM的顺序处理（一个词一个词地依次处理）始终是绊脚石。无法进行GPU并行化，导致训练实在太慢。

042017年6月12日，一切都变了

2017年6月12日。arXiv:1706.03762。标题极具挑衅意味 — "Attention Is All You Need." 作者共8人，全部隶属于Google Brain / Google Research。

⚡

Vaswani · Shazeer · Parmar · Uszkoreit · Jones · Gomez · Kaiser · Polosukhin

Google Brain / Google Research · NeurIPS 2017

核心主张 — "RNN和CNN都不需要。只要有attention就够了。" 他们造出的新结构名叫Transformer。一个token同时看到所有其他token（Self-Attention）。没有顺序处理，完全并行。是完美契合GPU的结构。

"我们完全去掉了RNN和CNN，却在所有task上都达到了SOTA（state-of-the-art）。训练时间也短得多。"

— Vaswani et al., "Attention is All You Need" 摘要节选

这篇论文发表之后，如今已过去9年。几乎所有AI模型都基于Transformer。ChatGPT、Claude、Gemini、Llama、BERT、GPT-4、ViT（Vision Transformer）、AlphaFold（蛋白质结构预测）、Sora（视频生成）、Whisper（语音识别），乃至自动驾驶的vision都是如此。"Attention is All You Need"论文按引用次数计是AI领域有史以来第一（2026年超过12万次）。

05那么attention到底是什么

打个比方。想想搜索引擎。当你搜索"猫"时（Query），它会与所有网页的关键词（Key）做比较，然后取出最相似页面的内容（Value）。

Transformer的attention也一样。每个词（token）都拥有自己的Q·K·V向量。把一个token的Q与所有其他token的K做比较 — 越相似，就越多地取用那个token的V。每个token都对所有其他token同时这样做。于是 — 一个token一次性吸收整句话的含义。

🎯 Multi-head的含义

Transformer会用多个head同时进行attention。一个head关注句法关系（主语-谓语），另一个head关注长距离依赖（this → 所指代的名词），还有一个head关注相邻关系（前后的词）。这就像人在读一句话时也会从多个角度去看。

下一篇（EP04）将讲述这个Transformer如何引出GPT-1、GPT-3，以及2022年11月30日ChatGPT的爆发。那场仅用5天就聚集了100万用户的事件，背后的技术脉络。

🧪

亲手体验 · AI Lab

亲手点击，看看Attention里一个token在看哪里 →

在像"the cat sat on the mat"这样的句子里点击一个词，就会用箭头和heatmap显示这个词在多大程度上关注其他词。对比3种attention head。

AI进化史 · 系列导航

← 上一篇

EP02 · 计算机拥有眼睛的30年故事

EP04 · 5天100万用户 — ChatGPT时代