AI进化史 · EP 03

一篇论文统一
整个AI的那一天

2017年6月12日。Google Brain的8个人把一篇论文上传到了arXiv。标题极具挑衅意味 — "Attention is All You Need." 那一天之后过去了9年,如今AI研究的99%都运转在这篇论文之上。

5分钟阅读 2026.05.04 1997 → 2017

01首先 — RNN短暂的幸福

1980年代后期。Michael Jordan(不是那位篮球的Jordan)和Jeffrey Elman提出了RNN(Recurrent Neural Network,循环神经网络)。想法很简单 — "把昨天的输出和当前的输入一起喂进去,就能处理序列。"

理论上很优雅。因为它可以原样学习一条时间流。但有个问题 — 在长句子里会忘掉一开始看到的词。用数学来说就是'vanishing gradient'(梯度消失)问题。只要超过10个词,第一个词的影响就几乎消失了。

021997年,两个德国人造出了'不会忘记的RNN'

1997年。在德国慕尼黑工业大学攻读博士的一个人,和他的导师一起发表了一篇论文。标题是"Long Short-Term Memory"。简称LSTM

🧬
Sepp Hochreiter & Jürgen Schmidhuber
TU Munich · 1997 · Neural Computation 9(8):1735-1780

核心思想 — 在神经网络里设置3个门。① forget gate:决定昨天的记忆中要忘掉什么,② input gate:决定新信息中要接收什么,③ output gate:决定现在要输出什么。每个门都会学习一个0~1的值并自动决定。

LSTM解决了RNN的'vanishing'问题。即便是相隔100个词的依赖关系也能学习。2014~2017年是LSTM的黄金时代 — Google翻译、Apple Siri、Amazon Alexa全都基于LSTM。

032014年,Google给LSTM装上了两个脑袋

2014年12月NeurIPS。曾在多伦多大学师从Hinton的一位博士生转投Google Brain,发表了一篇论文 — "Sequence to Sequence Learning with Neural Networks."

📐
Ilya Sutskever · Oriol Vinyals · Quoc V. Le
Google Brain · NeurIPS 2014

"Encoder-Decoder"结构的开端。一个LSTM把输入句子整体压缩(encoder),另一个LSTM接过它并依次生成输出句子(decoder)。应用到英语→法语翻译上,取得了当时的最佳性能(BLEU 34.8)。Sutskever就是EP01里Hinton的那位弟子,EP02 AlexNet的共同作者,日后OpenAI的联合创始人。

⚠️ 然而有一个致命的问题
Encoder把整个输入句子压缩成一个固定大小的向量。短句子还OK,长句子的信息损失就太多了。要把一个50个词的句子塞进一个向量,几乎是不可能的。

2015年Bengio小组加入了一个叫'attention'的辅助机制,部分解决了这个问题,但从本质上看,LSTM的顺序处理(一个词一个词地依次处理)始终是绊脚石。无法进行GPU并行化,导致训练实在太慢。

042017年6月12日,一切都变了

2017年6月12日。arXiv:1706.03762。标题极具挑衅意味 — "Attention Is All You Need." 作者共8人,全部隶属于Google Brain / Google Research。

Vaswani · Shazeer · Parmar · Uszkoreit · Jones · Gomez · Kaiser · Polosukhin
Google Brain / Google Research · NeurIPS 2017

核心主张 — "RNN和CNN都不需要。只要有attention就够了。" 他们造出的新结构名叫Transformer。一个token同时看到所有其他token(Self-Attention)。没有顺序处理,完全并行。是完美契合GPU的结构。

"我们完全去掉了RNN和CNN,却在所有task上都达到了SOTA(state-of-the-art)。训练时间也短得多。"

— Vaswani et al., "Attention is All You Need" 摘要节选

这篇论文发表之后,如今已过去9年。几乎所有AI模型都基于Transformer。ChatGPT、Claude、Gemini、Llama、BERT、GPT-4、ViT(Vision Transformer)、AlphaFold(蛋白质结构预测)、Sora(视频生成)、Whisper(语音识别),乃至自动驾驶的vision都是如此。"Attention is All You Need"论文按引用次数计是AI领域有史以来第一(2026年超过12万次)。

05那么attention到底是什么

打个比方。想想搜索引擎。当你搜索"猫"时(Query),它会与所有网页的关键词(Key)做比较,然后取出最相似页面的内容(Value)。

Transformer的attention也一样。每个词(token)都拥有自己的Q·K·V向量。把一个token的Q与所有其他token的K做比较 — 越相似,就越多地取用那个token的V。每个token都对所有其他token同时这样做。于是 — 一个token一次性吸收整句话的含义

🎯 Multi-head的含义
Transformer会用多个head同时进行attention。一个head关注句法关系(主语-谓语),另一个head关注长距离依赖(this → 所指代的名词),还有一个head关注相邻关系(前后的词)。这就像人在读一句话时也会从多个角度去看。

下一篇(EP04)将讲述这个Transformer如何引出GPT-1、GPT-3,以及2022年11月30日ChatGPT的爆发。那场仅用5天就聚集了100万用户的事件,背后的技术脉络。

🧪
亲手体验 · AI Lab
亲手点击,看看Attention里一个token在看哪里 →
在像"the cat sat on the mat"这样的句子里点击一个词,就会用箭头和heatmap显示这个词在多大程度上关注其他词。对比3种attention head。
AI进化史 · 系列导航