2017年6月12日。Google Brain的8个人把一篇论文上传到了arXiv。标题极具挑衅意味 — "Attention is All You Need." 那一天之后过去了9年,如今AI研究的99%都运转在这篇论文之上。
1980年代后期。Michael Jordan(不是那位篮球的Jordan)和Jeffrey Elman提出了RNN(Recurrent Neural Network,循环神经网络)。想法很简单 — "把昨天的输出和当前的输入一起喂进去,就能处理序列。"
理论上很优雅。因为它可以原样学习一条时间流。但有个问题 — 在长句子里会忘掉一开始看到的词。用数学来说就是'vanishing gradient'(梯度消失)问题。只要超过10个词,第一个词的影响就几乎消失了。
1997年。在德国慕尼黑工业大学攻读博士的一个人,和他的导师一起发表了一篇论文。标题是"Long Short-Term Memory"。简称LSTM。
核心思想 — 在神经网络里设置3个门。① forget gate:决定昨天的记忆中要忘掉什么,② input gate:决定新信息中要接收什么,③ output gate:决定现在要输出什么。每个门都会学习一个0~1的值并自动决定。
LSTM解决了RNN的'vanishing'问题。即便是相隔100个词的依赖关系也能学习。2014~2017年是LSTM的黄金时代 — Google翻译、Apple Siri、Amazon Alexa全都基于LSTM。
2014年12月NeurIPS。曾在多伦多大学师从Hinton的一位博士生转投Google Brain,发表了一篇论文 — "Sequence to Sequence Learning with Neural Networks."
"Encoder-Decoder"结构的开端。一个LSTM把输入句子整体压缩(encoder),另一个LSTM接过它并依次生成输出句子(decoder)。应用到英语→法语翻译上,取得了当时的最佳性能(BLEU 34.8)。Sutskever就是EP01里Hinton的那位弟子,EP02 AlexNet的共同作者,日后OpenAI的联合创始人。
2015年Bengio小组加入了一个叫'attention'的辅助机制,部分解决了这个问题,但从本质上看,LSTM的顺序处理(一个词一个词地依次处理)始终是绊脚石。无法进行GPU并行化,导致训练实在太慢。
2017年6月12日。arXiv:1706.03762。标题极具挑衅意味 — "Attention Is All You Need." 作者共8人,全部隶属于Google Brain / Google Research。
核心主张 — "RNN和CNN都不需要。只要有attention就够了。" 他们造出的新结构名叫Transformer。一个token同时看到所有其他token(Self-Attention)。没有顺序处理,完全并行。是完美契合GPU的结构。
"我们完全去掉了RNN和CNN,却在所有task上都达到了SOTA(state-of-the-art)。训练时间也短得多。"
— Vaswani et al., "Attention is All You Need" 摘要节选这篇论文发表之后,如今已过去9年。几乎所有AI模型都基于Transformer。ChatGPT、Claude、Gemini、Llama、BERT、GPT-4、ViT(Vision Transformer)、AlphaFold(蛋白质结构预测)、Sora(视频生成)、Whisper(语音识别),乃至自动驾驶的vision都是如此。"Attention is All You Need"论文按引用次数计是AI领域有史以来第一(2026年超过12万次)。
打个比方。想想搜索引擎。当你搜索"猫"时(Query),它会与所有网页的关键词(Key)做比较,然后取出最相似页面的内容(Value)。
Transformer的attention也一样。每个词(token)都拥有自己的Q·K·V向量。把一个token的Q与所有其他token的K做比较 — 越相似,就越多地取用那个token的V。每个token都对所有其他token同时这样做。于是 — 一个token一次性吸收整句话的含义。
下一篇(EP04)将讲述这个Transformer如何引出GPT-1、GPT-3,以及2022年11月30日ChatGPT的爆发。那场仅用5天就聚集了100万用户的事件,背后的技术脉络。