AI進化史 · EP 03

一篇の論文がAI
全体を統一した日

2017年6月12日。Google Brainの8人が一篇の論文をarXivに投稿した。タイトルが挑発的だった — 「Attention is All You Need.」その日から9年が過ぎた今、AI研究の99%がこの論文の上で回っている。

5分 read 2026.05.04 1997 → 2017

01まず — RNNの短い幸福

1980年代後半。Michael Jordan(あの本のJordanではない)とJeffrey ElmanがRNN(Recurrent Neural Network)を提案した。アイデアはシンプルだった — 「今の入力に昨日の出力を一緒に入れれば、シーケンスを処理できる。」

理論的にはエレガントだった。一本の時間の流れをそのまま学習できるからだ。ところが問題があった — 長い文では最初に見た単語を忘れてしまう。数学的に表現すると『vanishing gradient』問題。10単語を超えただけで最初の単語の影響がほとんど消えてしまう。

021997年、2人のドイツ人が作った『忘れないRNN』

1997年。ドイツのミュンヘン工科大学で博士課程に在籍していた一人が、指導教授とともに一篇の論文を発表する。タイトルは「Long Short-Term Memory」。略してLSTM

🧬
Sepp Hochreiter & Jürgen Schmidhuber
TU Munich · 1997 · Neural Computation 9(8):1735-1780

核心となるアイデア — ニューラルネットワークの中に3つのゲートを作る。① forget gate: 昨日の記憶のうち何を忘れるか、② input gate: 新しい情報のうち何を受け取るか、③ output gate: 今何を出力するか。各ゲートは0〜1の値を学習して自動的に決める。

LSTMはRNNの『vanishing』問題を解決した。100単語離れた依存関係も学習可能。2014〜2017年がLSTMの黄金期だった — Google翻訳、Apple Siri、Amazon AlexaはすべてLSTMベースだった。

032014年、GoogleがLSTMに頭を2つ付けた

2014年12月のNeurIPS。トロント大学でHintonの博士学生だった一人がGoogle Brainに移ってきて発表した論文 — 「Sequence to Sequence Learning with Neural Networks.」

📐
Ilya Sutskever · Oriol Vinyals · Quoc V. Le
Google Brain · NeurIPS 2014

「Encoder-Decoder」構造の始まり。あるLSTMが入力文を丸ごと圧縮(encoder)し、別のLSTMがそれを受け取って出力文を順番に生成(decoder)する。英語→フランス語の翻訳に適用して当時最高性能(BLEU 34.8)を達成。SutskeverはEP01のあのHintonの弟子であり、EP02のAlexNetの共著者、のちにOpenAIの共同創業者である。

⚠️ ところが一つ決定的な問題があった
Encoderが入力文全体を固定サイズのベクトル一つに圧縮する。短い文ならOKだが、長い文は情報が失われすぎた。50単語の文を一つのベクトルに押し込むのは不可能に近かった。

2015年にBengioグループが『attention』という補助メカニズムを追加してこの問題を一部解決したが、本質的にはLSTMの逐次処理(一単語ずつ順番に)が足かせになっていた。GPUの並列化ができないので学習が遅すぎた。

042017年6月12日、すべてが変わった

2017年6月12日。arXiv:1706.03762。タイトルは挑発的だった — 「Attention Is All You Need.」著者は8人。全員Google Brain / Google Researchの所属。

Vaswani · Shazeer · Parmar · Uszkoreit · Jones · Gomez · Kaiser · Polosukhin
Google Brain / Google Research · NeurIPS 2017

核心となる主張 — 「RNNもCNNも全部必要ない。attentionさえあればいい。」彼らが作った新しい構造の名前はTransformer。一つのトークンがすべての他のトークンを同時に見る(Self-Attention)。逐次処理なし、完全並列。GPUに完璧に合う構造。

「我々はRNNとCNNを完全に取り除いてもすべてのtaskでSOTA(state-of-the-art)を達成した。学習時間もはるかに短い。」

— Vaswani et al., "Attention is All You Need" 要旨より

この論文が発表されてから9年が過ぎた今。ほぼすべてのAIモデルがTransformerベースだ。ChatGPT、Claude、Gemini、Llama、BERT、GPT-4、ViT(Vision Transformer)、AlphaFold(タンパク質構造予測)、Sora(動画生成)、Whisper(音声認識)、自動運転のvisionまで。「Attention is All You Need」論文は引用回数を基準にするとAI分野で歴代1位(12万回+ in 2026)。

05では、attentionとは何かというと

たとえ話を一つ。検索エンジンを考えてみよう。あなたが「猫」を検索すると(Query)、すべてのウェブページのキーワード(Key)と比較して、最も似ているページの内容(Value)を取ってくる。

Transformerのattentionも同じだ。各単語(トークン)が自分だけのQ·K·Vベクトルを持っている。一つのトークンのQをすべての他のトークンのKと比較して — 似ているほどそのトークンのVをより多く取ってくる。これをすべてのトークンが同時に、すべての他のトークンに対して行う。だから — 一つのトークンが文全体の意味を一度に吸収する。

🎯 Multi-headの意味
Transformerはattentionを複数のheadで同時に行う。あるheadは構文関係(主語-動詞)、別のheadは長距離依存(this → 指す名詞)、また別のheadは隣接関係(前後の単語)。人間も一つの文を読むときに複数の視点から見るのと同じだ。

次回(EP04)ではこのTransformerがどのようにGPT-1、GPT-3、そして2022年11月30日のChatGPTの爆発へとつながったのかを扱う。5日間でユーザー100万人を集めたあの出来事の技術的背景。

🧪
自分でやってみる · AI Lab
Attention 一つのトークンがどこを見るのか直接クリック →
「the cat sat on the mat」のような文で一つの単語をクリックすると、その単語が他の単語をどれだけ見ているかを矢印とheatmapで表示。3種類のattention headを比較。
AI進化史 · シリーズナビゲーション