AI 进化史 · EP 08 · FINAL

一篇被埋没的论文
开启了所有公司的AI时代

2020年5月,Patrick Lewis在Meta AI Research向NeurIPS提交了一篇论文。那篇论文 — 被埋没了整整两年。2022年11月ChatGPT问世后,所有企业都浮现出同一个问题。"ChatGPT不了解我们公司的资料啊?"这时有人翻出了那篇被埋没的论文。

7分钟 read 2026.05.05 2020 → 2026 · FINAL

012020年5月,埋没在NeurIPS的论文

📚
Patrick Lewis
UCL 博士 → Meta AI Research → Cohere AI Lab · NeurIPS 2020

论文标题:"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"。简称 RAG。核心思想一句话 — "在模型作答之前,先从外部知识库中检索并取回相关文档,然后将其作为上下文来生成答案。"

为什么这很重要?2020年的GPT-3拥有1750亿个参数,但 — 对于训练数据中没有的信息(2020年9月之后发生的事件、公司内部资料等)却无能为力。此外还有"幻觉(hallucination)"问题 — 对不知道的事情煞有介事地编造谎言。RAG同时解决了这两个问题 — "不要依据训练数据,而要看检索取回的真实文档来作答"

然而 — 只有学术界知道。产业界没有接收到。原因很简单。因为当时LLM本身还没有走近普通人。2020年的GPT-3只有OpenAI API的测试版用户知道。所以RAG只是作为"有趣的学术成果"被埋没了。

022022年11月30日之后,所有公司都浮现的问题

EP04中看到的那一天。ChatGPT 5天达到100万人,2个月达到1亿人。CEO们开始在会议中打开ChatGPT。然后 — 同一个问题在所有公司同时浮现

"ChatGPT真的很聪明……但它对我们公司的人事规定或差旅费政策完全不了解。能不能把我们的内部资料拿去训练它?"

— 2023年几乎所有企业IT部门的会议

起初尝试了fine-tuning(微调)。把公司的1万页资料拿去训练GPT-3。结果是 — 贵(GPU数万小时)、慢(2周以上),而且每次添加新资料都得重新训练。并且微调过的模型仍然会产生幻觉。它会把公司政策中没有的内容煞有介事地编造出来。

这时有人 — 再次翻出了2020年Patrick Lewis的论文。"不需要去训练。检索出来给它看就行了。"

03RAG是如何运作的 — 用一张图说明

① 用户提问
② 向量检索
③ 提取相关文档
④ 向LLM注入上下文
⑤ 生成答案

① 用户提问:"差旅费上限是多少?"
② 向量检索:把问题转换为embedding向量 → 在公司内部文档数据库中找出语义上最相似的文档
③ 提取相关文档:取回排名靠前的3-5个文档(例如:"差旅费规定"文档第2章)
④ 向LLM注入上下文:"请参考以下文档作答:[文档内容]。问题:差旅费上限是多少?"
⑤ 生成答案:LLM看着那份文档生成答案 → "根据公司规定§2.3,国内出差每人每日15万韩元……"

🔑 RAG的魔法在于 ② 向量检索
它不是简单的关键词检索。而是把文档嵌入为1024维向量,按语义相似度来查找。即使用"差旅费上限"检索 — "Travel reimbursement policy"英文文档、"旅行经费指南"等含义相近的文档也都会被匹配到。这正是EP03的Transformer把词语含义学习为向量的结果。

042023年,一个新产业爆发了

要让RAG运作 — 就需要能快速检索数百万个文档向量的数据库。普通数据库(PostgreSQL、MongoDB)在向量检索上很慢。于是一个新品类诞生了 — Vector Database

📦
Edo Liberty
Pinecone 创始人(2019) · ex-Yahoo Research / Amazon AWS · 首个云端 vector DB

2019年创办Pinecone时,谁都不知道"vector DB"是什么。2023年4月 — 通过Series B融资$100M(总估值约$750M)。同年Weaviate、Chroma、Qdrant、Milvus也都爆发式增长。PostgreSQL的pgvector扩展也几乎成为事实标准。Vector DB市场正在迅速扩张至数十亿美元规模

052024年,所有工具都变成了"Copilot"

最早巧妙地应用RAG的公司之一是 — GitHub。GitHub Copilot从2021年起就是代码自动补全工具,2024年4月发布了"Copilot Workspace"技术预览。把正在处理的整个代码库进行索引 → 在编写新代码时自动检索相关函数、类并作为上下文使用,这种RAG模式是核心。

而在同一时期。Microsoft 365 Copilot于2023年11月正式发布。Word、Excel、PowerPoint、Outlook都通过RAG检索公司内部OneDrive、SharePoint中的文档来作答。说一句"帮我总结上个月的营销报告" — 它就会找到那份文档并总结。所有office worker的工作方式开始改变

还有企业自建。进入2024年 — McKinsey、Bain等的咨询报告开始一致地指出,众多大企业正在引入自建的企业内部LLM副驾驶。在韩国 — 三星电子在屏蔽公司内部ChatGPT后发布了自研的GAUSS(2023.11)、LG的GenAI Studio、SK电讯的A.X等。几乎所有大企业都呈现出相似的模式。

06所以RAG的真正意义

EP04中看到的ChatGPT的冲击,把AI带给了大众。然而在公司内部真正改变工作的,并不是ChatGPT,而是 — 它的RAG版本。同样是GPT-4,但 — 了解公司资料的GPT-4是一种完全不同的工具。新员工培训时间从6个月缩短到6周,内部政策查询时间从5分钟缩短到5秒,报告初稿撰写从3小时缩短到30分钟。

还有一点 — Patrick Lewis的论文是在2020年发表的。它在ChatGPT问世的2022年立即被应用,并非偶然。EP01中看到的1986年Hinton的反向传播、EP03的2017年Transformer、EP04的2020年GPT-3 — 全都是这样经过了2-7年的潜伏期,然后爆发式地进入产业。如今某篇被埋没的2026年的论文 — 将成为2030年的标准。

📖 八篇系列收官

从EP01开始的1958年Frank Rosenblatt的感知机。那台小小的5吨重的机器 — 在两次死亡又两次复活的过程中 — 我们一路追随着这个系列。

1986年Hinton的反向传播、1997年LSTM、2012年AlexNet的冲击、2017年Transformer的统一、2022年ChatGPT的爆发、2024年Sora的视频生成、2025年NVIDIA Blackwell,以及在2020年被埋没后复活的RAG。这一切都是同一条脉络。一个人的论文、一次洞见、一段潜伏期之后的爆发。

如果这个系列留下了一点什么 — 那就是AI并非突然出现,而是70年累积的结果。并且那70年的每一个阶段,如今仍在我们手机的相机、公司的副驾驶、半导体工厂的虚拟量测之中同时运转着。

07全部8篇一览 — 回顾

EP01 · 1958-1986AI死了两次 — 从感知机到反向传播 EP02 · 1989-2020会看图像的机器 — 从LeNet到AlexNet、ResNet、ViT EP03 · 1997-2017一篇论文统一整个AI的那天 — Transformer EP04 · 2018-20265天达到100万人 — ChatGPT时代 EP05 · 2014-2026在酒吧里想到的点子 — GAN/Diffusion/Sora EP06 · 1993-2026家庭餐厅开启AI时代 — NVIDIA/CUDA/TPU EP07 · Industry制造AI的工厂也用AI运转 — Panoptes/cuLitho EP08 · FINAL所有公司的AI时代 — RAG与副驾驶
🧪
亲自体验 · AI Lab
亲手体验企业内部RAG — 提问 → 检索 → 答案 →
从虚拟公司的6份文档中回答问题。在一个页面上确认匹配到的文档、相似度分数和生成的答案。这就是企业内部副驾驶的运作原理。
AI 进化史 · 系列导航