2022年11月30日下午(PST)。OpenAI 悄然公开了一款聊天机器人。即便在公司内部也没有抱多大期待 —— 有人称它为 "research preview"。然而5天后,用户突破了100万。2个月后,达到1亿。它成为互联网历史上增长最快的产品。
2017年 Google 的 Transformer 论文(EP03)问世后,一个问题浮现出来 —— "如果用海量文本数据对 Transformer 进行预训练(pre-train),会发生什么?"
2018年,有两家几乎同时给出了答案。Google 于2018年10月发布了 BERT(Jacob Devlin 等)。采用双向训练 —— 同时观察一个单词的左右上下文。OpenAI 则比它早4个月,在6月发布了 GPT-1(Radford 等)。采用单向 —— 预测下一个单词的方式。
OpenAI 研究团队于2020年发表的一篇论文 —— "Scaling Laws for Neural Language Models"。核心主张是:增大模型规模 × 数据 × 算力,性能就会以可预测的方式提升。
为了证明这个假设,他们在同年5月公开了 GPT-3。参数高达1750亿个(175B)。是 GPT-2 的100倍。据外部分析估算,训练所耗费的 GPU 计算成本约为460万美元(Lambda Labs 估算)。
GPT-3 是一记冲击。它能直接完成无人教过的翻译、摘要、写代码、写诗。"few-shot learning" —— 只要给出几个示例,它就能完成新的 task。看到这一点,OpenAI 内部 "这下真的有什么在发生" 的感觉变得更加坚定。
OpenAI 取来 GPT-3.5,添加了一样东西 —— RLHF(Reinforcement Learning from Human Feedback)。由人直接评价模型的回答,再通过强化学习把这些评价反映到模型中。这样做出来的就是 InstructGPT,而它的对话版本就是 ChatGPT。
Sam Altman(CEO,Y Combinator 前总裁)、Ilya Sutskever(Chief Scientist,Hinton 的学生,在 EP01·02·03 中均出现过的那个人)、Greg Brockman(President,ex-Stripe CTO)。这三人拍板决定公开。即便在公司内部也只是当作 "research preview" 轻描淡写地对待 —— 然而结果并非如此。
2023年3月14日。OpenAI 公开了 GPT-4。技术规格未公开。它通过了美国律师资格考试(UBAR)的前10%,AP Calc BC 4分/5分、AP 化学 5分/5分等,在众多标准考试中取得了人类顶尖水平的成绩。关于模型规模的推测(1.8万亿参数、MoE 结构)四处流传,但 OpenAI 并未官方确认。
而且 —— 在 GPT-4 公开约2年前的2021年,一群从 OpenAI 出走的人创立了一家新公司。
这是在 OpenAI 内主张应当更加重视"AI 安全(alignment)"的一群人。他们于2020年底离开 OpenAI,2021年初创立了 Anthropic。2023年3月推出 Claude 1,2024年6月推出 Claude 3.5 Sonnet —— 被评价为在编程能力上超越了 GPT-4。
而后在2024-2025年,又一记冲击来自中国。
他以与 OpenAI o1 相近的推理性能、却仅为1/30 的训练成本做出了 DeepSeek-R1。全部代码和 weights 都开源公开。美国大型科技公司的 GPU 军备竞赛假设本身受到了质疑 —— "真的需要这么贵吗?"
截至2026年5月。ChatGPT 每周活跃用户超过5亿。加上 Claude·Gemini·Llama·Grok,已接近10亿。互联网本身正在这些模型之上被重新构建。Google 搜索正变成 LLM 回答,IDE 正变成 Copilot,企业内部的 ERP 正变成 RAG(将在 EP08 中讲述)。
下一篇(EP05)将讲述2014年 Ian Goodfellow 在酒吧里灵光一现想到的 GAN,以及2020年从 DDPM(Diffusion)开始的图像·视频生成 AI 的12年史。如果说 ChatGPT 征服了语言,那么 Stable Diffusion·Sora·Veo 正在征服视觉。