1993年4月、カリフォルニア州サンノゼのあるDenny'sで3人が会社を立ち上げた。ゲーム用グラフィックカードを作ると言った。彼らはAIや人工知能といった言葉を一度も使ったことがない。30年後 — その会社の時価総額はAppleとMicrosoftを超えた。
30歳の台湾系アメリカ人 Jensen Huang は LSI Logic の役員だった。Sun Microsystems のグラフィックエンジニア2人、Chris Malachowsky と Curtis Priem とサンノゼの Denny's ファミリーレストランで会った。「グラフィックカードを作る会社を立ち上げよう」という一言で合意。6年後、彼らは GPU という言葉を生み出すことになる。
1999年10月。NVIDIA があるチップを発表する。名前は GeForce 256。そしてマーケティングコピーに新しい言葉を刻んだ — "Graphics Processing Unit (GPU)"。この言葉がその日、初めて世に出た。
彼らが解きたかった問題は単純だった — 3Dゲーム画面を速く描くこと。画面1フレームは数百万個のピクセルで構成されており、各ピクセルは同じ種類の計算を行う(ライティング、テクスチャマッピング、変換)。CPU は一度に1ピクセルずつ処理するので遅すぎた。「同じ計算を同時に数百個やらせよう」 — これが GPU の核心アイデアだ。
2000年代初頭、学界の一部が奇妙な試みを始めた。「GPUで科学計算ができないだろうか?」 しかし GPU API(OpenGL、DirectX)はグラフィック専用で — 行列の掛け算をテクスチャ合成のように回りくどく表現しなければならなかった。あまりに難しくてほとんど誰もやらなかった。
Stanford での博士課程中に BrookGPU を作った人物。2004年に NVIDIA に合流し、同じアイデアをチップレベルで再設計した。その結果が — 2007年6月に公開された CUDA。普通の C 言語で GPU をプログラミングできるようになった。学界の参入障壁が消えた。
2009年6月。Stanford の Andrew Ng グループが ICML にある論文を発表する — "Large-scale Deep Unsupervised Learning using Graphics Processors"。核心的な結果: CUDA で学習したモデルが CPU 比で70倍速かった。学界が衝撃に陥った。
そして EP02 で見たあの出来事。2012年秋、ImageNet 大会に Hinton の2人の弟子が参加する — Alex Krizhevsky、Ilya Sutskever。彼らが学習に使った GPU は — NVIDIA GTX 580 を2枚。家庭用ゲーマー向けカードだった。彼らが作った「AlexNet」は優勝した。そして — すべての vision 研究室が NVIDIA GPU を買い始めた。
2013年。Google 内部からある分析が出てきた — 「今、ユーザー全員が音声認識を毎日3分だけ使っても、我々のデータセンターを2倍に増やさなければならない。」 答えは? 「NVIDIA GPU をもっと買えばいい」ではなかった。「我々が直接チップを作ろう」が答えだった。
Stanford 博士で1980年代に MIPS·DEC Alpha CPU を作ったベテラン。Google で TPU(Tensor Processing Unit) を作った。核心的な違い: GPU が「多様な並列計算」のためのチップだとすれば、TPU は「ニューラルネットの行列の掛け算だけを本当に得意とする」チップ。一つの task に特化 → 効率が GPU の30-80倍。
2016年5月の Google I/O で TPU v1 を公開。2016年3月のアルファ碁 対 イ・セドル五番勝負は実は TPU が動かしていた。同じ年に Google は検索·翻訳·Photos に TPU を全面導入。NVIDIA は — 新たな競争相手を認識した。
2017-2026年 NVIDIA データセンター GPU の流れ:
2024年、NVIDIA は時価総額 $3兆 を突破し、Apple·Microsoft を超えた。しかし本当に衝撃的な数字は — 世界のデータセンター GPU 市場の90%を NVIDIA が占めていることだ。AMD MI300、Google TPU、Amazon Trainium、Microsoft Maia などが挑戦中だが — CUDA エコシステムの潜在的コストのため簡単には乗り換えられない。
2017年、Apple が iPhone X にあるチップを入れた。名前は Apple Neural Engine。NPU(Neural Processing Unit)と呼ぶ。スマホの中で直接 AI モデルを動かすチップ。写真の自動分類、Face ID、音声認識がすべてクラウドへ行かずスマホの中で実行された。
2026年現在、ほぼすべてのスマホチップに NPU が入っている。Apple A18 Pro Neural Engine (35 TOPS)、Samsung Exynos NPU、Qualcomm Hexagon、Google Tensor G4。Llama 3.2 1B のような小さな LLM が今やスマホで直接動く。クラウドを経由せずに。これが EP04 で見た ChatGPT 時代の次の段階 — 「モデルがスマホまで来た」。
EP01 で我々は1986年の Hinton の誤差逆伝播アルゴリズムを見た。そのアルゴリズムは30年間埋もれていた。「データが不足し、コンピュータが遅すぎたから」 — EP02 で見たその2つの限界のうち、2番目を結局解いたのが GPU だ。
同じアルゴリズム、同じ数学。しかし1986年 → 2012年の間に 演算速度が100万倍以上速くなった。そのため — 同じ backprop が突然動き始めた。AI はアルゴリズム革命ではなくハードウェア革命だったという見方が成り立つ理由だ。
次回(EP07)では これまでの6編がすべて集まって — 実際にある産業をどう変えたのかを見る。SKハイニックス Panoptes、NVIDIA cuLitho、Samsung Omniverse Twin。半導体工場の中で AI がどう動いているのかの現場の物語。