AI進化史 · EP 05

バーで思いついたアイデアが
絵を描くAIを生んだ

2014年のある夜、モントリオールのとあるバー。28歳の博士課程の学生が友人とビールを飲みながらアイデアを口にした — 「二つのニューラルネットワークに、互いを騙し合い見破り合うゲームをさせたらどうだろう?」友人は鼻で笑った。その夜、彼は家に帰ってコードを書いて走らせた。最初の試みでそれは動いた。

5分 read 2026.05.04 2014 → 2026

012014年、GANの誕生

🍺
Ian Goodfellow
b.1985 · Université de Montréal · NeurIPS 2014 · 現 DeepMind

アイデアはたった一行 — 「Generator(生成者) vs Discriminator(判別者)の敵対的ゲーム」。Generatorは偽物の画像を作り、Discriminatorは本物と偽物を見分ける。両者が同時に学習すると、Generatorはますます本物らしい画像を、Discriminatorはますます精密な判別を学んでいく。ゲームが均衡に達すると — Generatorが作った画像は本物と区別がつかなくなる。

彼が作ったモデルの名は GAN (Generative Adversarial Network)。最初はぼやけた28×28の手書き数字を生成した。しかし4年のうちに — StyleGANが偽物の人間の顔を1024×1024の解像度で作り出し、誰も本物と区別できなかった。

「バーにいたとき、ふと思いついたんだ。友人たちは絶対に無理だと言った。家に帰ってワインを一杯飲んでコードを書いた。最初の試みで動いた。それがGANだ。」

— Ian Goodfellow, 2019 インタビュー

02ところがGANには決定的な弱点があった

GANは6年間(2014-2020)、画像生成の王だった。StyleGAN, BigGAN, CycleGAN など華々しい後継が次々と現れた。しかし学界はすでに気づいていた — GANには二つの持病がある。

⚠️ GANの二つの落とし穴
① モード崩壊(Mode Collapse) — Generatorが「この一種類だけうまく作ればいい」と学習してしまい、多様性を失う。1000個のカテゴリのうち10個しか描かない状況。
② 学習の不安定性 — 二つのモデルの均衡が取れていなければならないのに、片方が上手すぎると、もう片方が学習を止めてしまう。学習の途中で突然壊れることもよくあった。

032020年、ノイズから始まる新しい道

2020年6月。UC Berkeleyのとある博士課程の学生が、一本の論文をNeurIPSに提出する。タイトルは "Denoising Diffusion Probabilistic Models"。略して DDPM

🎨
Jonathan Ho
UC Berkeley → Google Brain · DDPM (NeurIPS 2020)

アイデアは逆向きだ。画像に少しずつノイズを加えていき、完全な雑音にする (forward)。その過程をニューラルネットワークに学習させる。そして 逆に、雑音から少しずつノイズを取り除いていくと — 元の画像のようなものが現れる (reverse)。1000回の小さなステップに分ければ、安定して学習できる。

最初はGANよりずっと遅かった。1枚生成するのに数分。しかし 品質・多様性・安定性が圧倒的だった。モード崩壊なし。学習が壊れない。そして スケールを大きくすればそのまま良くなる

042022年8月、すべてが爆発した

2022年4月 — OpenAI DALL-E 2 公開。5月 — Google Imagen。どちらもDiffusionベース。どちらも非公開 (APIのみ)。

そして2022年8月22日 — あるドイツの会社がすべてを変えた。

🌊
Robin Rombach & Patrick Esser
CompVis (LMU Munich) → Stability AI · Stable Diffusion (2022.08.22)

Latent Diffusion論文(CVPR 2022)を作った二人が、Stability AIと協業して Stable Diffusionを公開した — モデルのweights、コード、学習データまですべてオープンソース。誰でも自分のGPUで動かせるようになった。その日からわずか数日のうちに 数万個のfine-tuningモデル、数百個の応用ツールが登場した。

🌊 一つのモデルのオープンソース公開が生んだ波及
Stable Diffusion公開から1年後 — Civitaiに登録されたfine-tuneモデルだけで 10万個以上。ControlNet (精密制御)、LoRA (低コスト学習)、DreamBooth (顔の学習) など中核となるツールはすべてオープンソースコミュニティから生まれた。OpenAI/Googleが作った大きな閉じたモデルよりも、小さくても開かれたモデルのほうが産業をより速く変えたという事例。

052024年、動画まで

2024年2月15日。OpenAIが Soraを発表する。60秒の動画をテキストだけで生成。自然なカメラの動き、一貫したキャラクター、現実のような物理。技術的な核心は — Diffusion Transformer (DiT): U-NetベースのDiffusionではなく、Transformerベースに変えた。動画の時間軸をattentionで処理する。

そして同じ年。2024年6月にRunway Gen-3、同じ時期に中国のKuaishou Klingが動画生成に加わった。2024年12月にはGoogle Veo 2の発表で、Soraに匹敵するかそれ以上の動画品質を見せ始めた。Hollywood VFXスタジオの一部が早くからこれらのツールを導入し始めた

06では、絵を描くAIの意味とは

EP04で私たちは、ChatGPTが 言語を征服したと述べた。EP05では — Diffusionが 視覚を征服した。イラスト、写真、デザイン、VFX、動画広告。これらすべての産業が 2年のあいだに前世代のツールを失った

そして意外な場所でも — Diffusionは 半導体工場の欠陥データの合成(Intel GFA)に、医療画像の補強に、薬物分子の設計(AlphaFoldの次世代)に使われている。雑音から意味のあるパターンへと向かうメカニズムは — 画像を超えてあらゆるデータに適用できることが明らかになった。

次回(EP06)では これらすべてのモデルを動かす本当の基盤 — NVIDIAのGPUを取り上げる。1999年のGeForce 256から2024年のBlackwellまで。CUDAがどのようにして全学界の標準になったのか、そしてGoogleがなぜ独自チップ(TPU)を作ったのかを。

🧪
自分で試してみる · AI Lab
ノイズ → 画像の1000ステップを直接見る →
Stable Diffusionがどう動くのかをスライダー一つで — Forward(学習時のノイズ追加)とReverse(生成時のノイズ除去)が鏡像であることを、ご自身で確かめてください。
AI進化史 · シリーズナビゲーション