AI進化史 · EP 02

コンピュータが目を
持つようになった30年の物語

1989年、Bell Labsのある研究所で、コンピュータが初めて手書きの郵便番号を読み始めた。そして23年の沈黙。2012年の秋、あるモデルがImageNetコンペティションを打ち砕いたことで — すべてが変わる。

5分 read 2026.05.04 1989 → 2020

011989年、郵便番号を読み始めた機械

1989年。New JerseyにあるAT&T Bell Labs。28歳のフランス人研究者がある発表を行う。彼の名はYann LeCun。発表の内容は単純だった — 「ニューラルネットワークで手書きの数字を認識した。」

📷

Yann LeCun

b.1960 · Bell Labs → NYU → Meta Chief AI Scientist

1989年にLeNet、1998年にLeNet-5を作った人物。CNN(Convolutional Neural Network)の事実上の創始者。2018年にHinton・Bengioとともにチューリング賞を受賞。

LeCunが作ったモデル「LeNet」は、二つの核心的なアイデアを導入した。① 局所性(locality) — ピクセル一点は周囲のピクセルとのみ意味のある関連を持つ。② 重み共有(weight sharing) — 同じ小さなフィルタ(例: 3×3)を画像全体にスライディングする。

この二つのおかげで、100×100の白黒画像を処理するのに必要な重みの数が100万個から9個へと圧縮された。学習が可能になったのだ。

📮 どう使われたか

AT&TはLeNetを米国郵便局の郵便番号自動仕分け機に実際に投入した。1990年代の米国で処理された手書きの小切手・郵便物のかなりの部分が、LeCunのモデルによって読み取られていた — 一般の人々は知らなかったが。

02ところが23年間、片隅にとどまっていた

1998年にLeCunが「LeNet-5」を発表して以降、CNNは学界の外ではほとんど言及されなかった。1990年代から2010年代初頭まで、コンピュータビジョンの標準はニューラルネットワークではなかった。SVM、HOG、SIFTのようなより単純な手法のほうがうまく機能した。

理由は明確だった。ニューラルネットワークをきちんと学習させるには数十万〜数百万枚のラベル付き画像 + 高速なGPUが必要だが、どちらもなかった。CNNは1990年代を通して「理論的には優雅だが、実際には機能しないもの」に分類されていた。

032012年の秋、すべてが変わったコンペティション

2012年のImageNetコンペティション(ILSVRC)。120万枚の画像を1,000個のカテゴリに分類するグローバルなコンペティション。結果の発表はその年の秋だった。トロント大学のあるチームが圧倒的1位を獲得した — Top-5誤り率を26.2% → 15.3%へと一気に引き下げたのだ。

そのモデルの名は「AlexNet」。作ったのは三人。

🏆

Alex Krizhevsky · Ilya Sutskever · Geoffrey Hinton

University of Toronto · NeurIPS 2012

Hinton(EP01のあのHinton)の二人の博士課程の学生が一緒に作り上げた。AlexNetは8層のCNNをNVIDIA GTX 580 GPU 2基で学習させた — これがすべての始まりだった。ReLU活性化、dropout正則化など、今日の標準的な手法がすべてこの論文で確立された。

📌 あの日の意味

AlexNetのTop-5誤り率は15.3%。2位のISI日本チーム(伝統的手法)は26.2%。10%pの差はImageNet史上最大の飛躍だった。あの日以降、すべてのvision論文がCNNベースへと移行した — SVM・HOG・SIFTは事実上姿を消した。

そして — ディープラーニングの時代が本格的に始まった。

042015年、152層まで積み上げた人物

2012〜2014年。誰もがニューラルネットワークをより深く積み上げようとした。AlexNet 8層 → VGG 16層 → 19層。ところが奇妙なことが起きた — 20層を超えると、かえって性能が落ちた。

🇨🇳

Kaiming He

Microsoft Research Asia · ResNet (2015) · arXiv:1512.03385

2015年12月、北京でResNetを発表。核心的なアイデアはたった一行 — 「ある層の出力に、その層の入力を加える。」これをskip connection (y = F(x) + x)と呼ぶ。このシンプルな変更によって152層までの学習が可能になった。

ResNetはImageNetで人間レベルの分類精度(Top-5誤り3.57%)を達成した。そして — 今日のほぼすべてのvisionモデル、そしてTransformerまでもがskip connectionを使っている。2026年現在、ResNetの論文は引用回数の基準でAI分野の1〜2位を争っている。

052020年、Transformerがvisionまで飲み込んだ

2017年にGoogleが発表したTransformer(EP03で扱う予定)が言語処理を制覇した後、人々は問い始めた — 「Transformerを画像にも使えるだろうか?」

2020年10月、Google ResearchがViT (Vision Transformer)を発表した。画像を16×16のpatchに切り分けてtokenのように扱い、それらのpatch同士のattentionを学習する。結果 — 大規模データセットにおいてCNNを上回り始めた。

🎯 それでも産業現場ではResNet

ViTが学術的なSOTAを奪ったものの、2026年現在実際の産業 (半導体検査、自動運転vision、医療画像)では依然としてResNetベースが標準だ。理由: 小さなデータセットではResNetのほうが安定し、推論がより速く、モバイルへの展開が容易。ViTは巨大モデル・巨大データのときにのみ優位。

06では、コンピュータの目はどこにあるのか

今あなたが使っているスマホのカメラの自動人物認識、Teslaの自動運転の歩行者検出、Samsung・LGの半導体工場の欠陥検出、医療X-ray分析 — すべてCNN(またはその後継)が核心だ。

1989年にLeCunが作った9個の重みの小さなフィルタが、今やResNet-152では1000万個の重み、ViT-Hugeでは6億個の重みにまで大きくなった。しかし「小さなフィルタをスライディングする」という核心的なアイデアは変わっていない。

次回(EP03)では1997年にSepp Hochreiter & Jürgen Schmidhuberが作ったLSTMから始まり、2017年のGoogleの「Attention is All You Need」論文ですべてを統一したTransformerまで — コンピュータが言語を扱う方法を学んだ20年史をたどる。

🧪

自分でやってみる · AI Lab

CNNフィルタのスライディングを直接見る →

8×8の入力に3×3のカーネルをスライディングしながら、feature mapがどのように作られるのか。6種類のカーネル(水平/垂直エッジ、Sobel、blur、sharp、identity)を比較してみてください。

AI進化史 · シリーズナビゲーション

← 前へ

EP01 · AIは二度死んだ (1958→1986)

EP03 · 一編の論文がAI全体を統一した日

コンピュータが目を持つようになった30年の物語