2017年6月12日。Google Brainの8人が一篇の論文をarXivに投稿した。タイトルが挑発的だった — 「Attention is All You Need.」その日から9年が過ぎた今、AI研究の99%がこの論文の上で回っている。
1980年代後半。Michael Jordan(あの本のJordanではない)とJeffrey ElmanがRNN(Recurrent Neural Network)を提案した。アイデアはシンプルだった — 「今の入力に昨日の出力を一緒に入れれば、シーケンスを処理できる。」
理論的にはエレガントだった。一本の時間の流れをそのまま学習できるからだ。ところが問題があった — 長い文では最初に見た単語を忘れてしまう。数学的に表現すると『vanishing gradient』問題。10単語を超えただけで最初の単語の影響がほとんど消えてしまう。
1997年。ドイツのミュンヘン工科大学で博士課程に在籍していた一人が、指導教授とともに一篇の論文を発表する。タイトルは「Long Short-Term Memory」。略してLSTM。
核心となるアイデア — ニューラルネットワークの中に3つのゲートを作る。① forget gate: 昨日の記憶のうち何を忘れるか、② input gate: 新しい情報のうち何を受け取るか、③ output gate: 今何を出力するか。各ゲートは0〜1の値を学習して自動的に決める。
LSTMはRNNの『vanishing』問題を解決した。100単語離れた依存関係も学習可能。2014〜2017年がLSTMの黄金期だった — Google翻訳、Apple Siri、Amazon AlexaはすべてLSTMベースだった。
2014年12月のNeurIPS。トロント大学でHintonの博士学生だった一人がGoogle Brainに移ってきて発表した論文 — 「Sequence to Sequence Learning with Neural Networks.」
「Encoder-Decoder」構造の始まり。あるLSTMが入力文を丸ごと圧縮(encoder)し、別のLSTMがそれを受け取って出力文を順番に生成(decoder)する。英語→フランス語の翻訳に適用して当時最高性能(BLEU 34.8)を達成。SutskeverはEP01のあのHintonの弟子であり、EP02のAlexNetの共著者、のちにOpenAIの共同創業者である。
2015年にBengioグループが『attention』という補助メカニズムを追加してこの問題を一部解決したが、本質的にはLSTMの逐次処理(一単語ずつ順番に)が足かせになっていた。GPUの並列化ができないので学習が遅すぎた。
2017年6月12日。arXiv:1706.03762。タイトルは挑発的だった — 「Attention Is All You Need.」著者は8人。全員Google Brain / Google Researchの所属。
核心となる主張 — 「RNNもCNNも全部必要ない。attentionさえあればいい。」彼らが作った新しい構造の名前はTransformer。一つのトークンがすべての他のトークンを同時に見る(Self-Attention)。逐次処理なし、完全並列。GPUに完璧に合う構造。
「我々はRNNとCNNを完全に取り除いてもすべてのtaskでSOTA(state-of-the-art)を達成した。学習時間もはるかに短い。」
— Vaswani et al., "Attention is All You Need" 要旨よりこの論文が発表されてから9年が過ぎた今。ほぼすべてのAIモデルがTransformerベースだ。ChatGPT、Claude、Gemini、Llama、BERT、GPT-4、ViT(Vision Transformer)、AlphaFold(タンパク質構造予測)、Sora(動画生成)、Whisper(音声認識)、自動運転のvisionまで。「Attention is All You Need」論文は引用回数を基準にするとAI分野で歴代1位(12万回+ in 2026)。
たとえ話を一つ。検索エンジンを考えてみよう。あなたが「猫」を検索すると(Query)、すべてのウェブページのキーワード(Key)と比較して、最も似ているページの内容(Value)を取ってくる。
Transformerのattentionも同じだ。各単語(トークン)が自分だけのQ·K·Vベクトルを持っている。一つのトークンのQをすべての他のトークンのKと比較して — 似ているほどそのトークンのVをより多く取ってくる。これをすべてのトークンが同時に、すべての他のトークンに対して行う。だから — 一つのトークンが文全体の意味を一度に吸収する。
次回(EP04)ではこのTransformerがどのようにGPT-1、GPT-3、そして2022年11月30日のChatGPTの爆発へとつながったのかを扱う。5日間でユーザー100万人を集めたあの出来事の技術的背景。