1989年、Bell Labsのある研究所で、コンピュータが初めて手書きの郵便番号を読み始めた。そして23年の沈黙。2012年の秋、あるモデルがImageNetコンペティションを打ち砕いたことで — すべてが変わる。
1989年。New JerseyにあるAT&T Bell Labs。28歳のフランス人研究者がある発表を行う。彼の名はYann LeCun。発表の内容は単純だった — 「ニューラルネットワークで手書きの数字を認識した。」
1989年にLeNet、1998年にLeNet-5を作った人物。CNN(Convolutional Neural Network)の事実上の創始者。2018年にHinton・Bengioとともにチューリング賞を受賞。
LeCunが作ったモデル「LeNet」は、二つの核心的なアイデアを導入した。① 局所性(locality) — ピクセル一点は周囲のピクセルとのみ意味のある関連を持つ。② 重み共有(weight sharing) — 同じ小さなフィルタ(例: 3×3)を画像全体にスライディングする。
この二つのおかげで、100×100の白黒画像を処理するのに必要な重みの数が100万個から9個へと圧縮された。学習が可能になったのだ。
1998年にLeCunが「LeNet-5」を発表して以降、CNNは学界の外ではほとんど言及されなかった。1990年代から2010年代初頭まで、コンピュータビジョンの標準はニューラルネットワークではなかった。SVM、HOG、SIFTのようなより単純な手法のほうがうまく機能した。
理由は明確だった。ニューラルネットワークをきちんと学習させるには数十万〜数百万枚のラベル付き画像 + 高速なGPUが必要だが、どちらもなかった。CNNは1990年代を通して「理論的には優雅だが、実際には機能しないもの」に分類されていた。
2012年のImageNetコンペティション(ILSVRC)。120万枚の画像を1,000個のカテゴリに分類するグローバルなコンペティション。結果の発表はその年の秋だった。トロント大学のあるチームが圧倒的1位を獲得した — Top-5誤り率を26.2% → 15.3%へと一気に引き下げたのだ。
そのモデルの名は「AlexNet」。作ったのは三人。
Hinton(EP01のあのHinton)の二人の博士課程の学生が一緒に作り上げた。AlexNetは8層のCNNをNVIDIA GTX 580 GPU 2基で学習させた — これがすべての始まりだった。ReLU活性化、dropout正則化など、今日の標準的な手法がすべてこの論文で確立された。
そして — ディープラーニングの時代が本格的に始まった。
2012〜2014年。誰もがニューラルネットワークをより深く積み上げようとした。AlexNet 8層 → VGG 16層 → 19層。ところが奇妙なことが起きた — 20層を超えると、かえって性能が落ちた。
2015年12月、北京でResNetを発表。核心的なアイデアはたった一行 — 「ある層の出力に、その層の入力を加える。」これをskip connection (y = F(x) + x)と呼ぶ。このシンプルな変更によって152層までの学習が可能になった。
ResNetはImageNetで人間レベルの分類精度(Top-5誤り3.57%)を達成した。そして — 今日のほぼすべてのvisionモデル、そしてTransformerまでもがskip connectionを使っている。2026年現在、ResNetの論文は引用回数の基準でAI分野の1〜2位を争っている。
2017年にGoogleが発表したTransformer(EP03で扱う予定)が言語処理を制覇した後、人々は問い始めた — 「Transformerを画像にも使えるだろうか?」
2020年10月、Google ResearchがViT (Vision Transformer)を発表した。画像を16×16のpatchに切り分けてtokenのように扱い、それらのpatch同士のattentionを学習する。結果 — 大規模データセットにおいてCNNを上回り始めた。
今あなたが使っているスマホのカメラの自動人物認識、Teslaの自動運転の歩行者検出、Samsung・LGの半導体工場の欠陥検出、医療X-ray分析 — すべてCNN(またはその後継)が核心だ。
1989年にLeCunが作った9個の重みの小さなフィルタが、今やResNet-152では1000万個の重み、ViT-Hugeでは6億個の重みにまで大きくなった。しかし「小さなフィルタをスライディングする」という核心的なアイデアは変わっていない。
次回(EP03)では1997年にSepp Hochreiter & Jürgen Schmidhuberが作ったLSTMから始まり、2017年のGoogleの「Attention is All You Need」論文ですべてを統一したTransformerまで — コンピュータが言語を扱う方法を学んだ20年史をたどる。