AI 进化史 · EP 08 · FINAL

一篇被埋没的论文
开启了所有公司的AI时代

2020年5月，Patrick Lewis在Meta AI Research向NeurIPS提交了一篇论文。那篇论文 — 被埋没了整整两年。2022年11月ChatGPT问世后，所有企业都浮现出同一个问题。"ChatGPT不了解我们公司的资料啊？"这时有人翻出了那篇被埋没的论文。

7分钟 read 2026.05.05 2020 → 2026 · FINAL

012020年5月，埋没在NeurIPS的论文

📚

Patrick Lewis

UCL 博士 → Meta AI Research → Cohere AI Lab · NeurIPS 2020

论文标题："Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"。简称 RAG。核心思想一句话 — "在模型作答之前，先从外部知识库中检索并取回相关文档，然后将其作为上下文来生成答案。"

为什么这很重要？2020年的GPT-3拥有1750亿个参数，但 — 对于训练数据中没有的信息（2020年9月之后发生的事件、公司内部资料等）却无能为力。此外还有"幻觉（hallucination）"问题 — 对不知道的事情煞有介事地编造谎言。RAG同时解决了这两个问题 — "不要依据训练数据，而要看检索取回的真实文档来作答"。

然而 — 只有学术界知道。产业界没有接收到。原因很简单。因为当时LLM本身还没有走近普通人。2020年的GPT-3只有OpenAI API的测试版用户知道。所以RAG只是作为"有趣的学术成果"被埋没了。

022022年11月30日之后，所有公司都浮现的问题

EP04中看到的那一天。ChatGPT 5天达到100万人，2个月达到1亿人。CEO们开始在会议中打开ChatGPT。然后 — 同一个问题在所有公司同时浮现。

"ChatGPT真的很聪明……但它对我们公司的人事规定或差旅费政策完全不了解。能不能把我们的内部资料拿去训练它？"

— 2023年几乎所有企业IT部门的会议

起初尝试了fine-tuning（微调）。把公司的1万页资料拿去训练GPT-3。结果是 — 贵（GPU数万小时）、慢（2周以上），而且每次添加新资料都得重新训练。并且微调过的模型仍然会产生幻觉。它会把公司政策中没有的内容煞有介事地编造出来。

这时有人 — 再次翻出了2020年Patrick Lewis的论文。"不需要去训练。检索出来给它看就行了。"

03RAG是如何运作的 — 用一张图说明

① 用户提问

→

② 向量检索

→

③ 提取相关文档

→

④ 向LLM注入上下文

→

⑤ 生成答案

① 用户提问："差旅费上限是多少？"
② 向量检索：把问题转换为embedding向量 → 在公司内部文档数据库中找出语义上最相似的文档
③ 提取相关文档：取回排名靠前的3-5个文档（例如："差旅费规定"文档第2章）
④ 向LLM注入上下文："请参考以下文档作答：[文档内容]。问题：差旅费上限是多少？"
⑤ 生成答案：LLM看着那份文档生成答案 → "根据公司规定§2.3，国内出差每人每日15万韩元……"

🔑 RAG的魔法在于 ② 向量检索

它不是简单的关键词检索。而是把文档嵌入为1024维向量，按语义相似度来查找。即使用"差旅费上限"检索 — "Travel reimbursement policy"英文文档、"旅行经费指南"等含义相近的文档也都会被匹配到。这正是EP03的Transformer把词语含义学习为向量的结果。

042023年，一个新产业爆发了

要让RAG运作 — 就需要能快速检索数百万个文档向量的数据库。普通数据库（PostgreSQL、MongoDB）在向量检索上很慢。于是一个新品类诞生了 — Vector Database。

📦

Edo Liberty

Pinecone 创始人(2019) · ex-Yahoo Research / Amazon AWS · 首个云端 vector DB

2019年创办Pinecone时，谁都不知道"vector DB"是什么。2023年4月 — 通过Series B融资$100M（总估值约$750M）。同年Weaviate、Chroma、Qdrant、Milvus也都爆发式增长。PostgreSQL的pgvector扩展也几乎成为事实标准。Vector DB市场正在迅速扩张至数十亿美元规模。

052024年，所有工具都变成了"Copilot"

最早巧妙地应用RAG的公司之一是 — GitHub。GitHub Copilot从2021年起就是代码自动补全工具，2024年4月发布了"Copilot Workspace"技术预览。把正在处理的整个代码库进行索引 → 在编写新代码时自动检索相关函数、类并作为上下文使用，这种RAG模式是核心。

而在同一时期。Microsoft 365 Copilot于2023年11月正式发布。Word、Excel、PowerPoint、Outlook都通过RAG检索公司内部OneDrive、SharePoint中的文档来作答。说一句"帮我总结上个月的营销报告" — 它就会找到那份文档并总结。所有office worker的工作方式开始改变。

还有企业自建。进入2024年 — McKinsey、Bain等的咨询报告开始一致地指出，众多大企业正在引入自建的企业内部LLM副驾驶。在韩国 — 三星电子在屏蔽公司内部ChatGPT后发布了自研的GAUSS（2023.11）、LG的GenAI Studio、SK电讯的A.X等。几乎所有大企业都呈现出相似的模式。

06所以RAG的真正意义

EP04中看到的ChatGPT的冲击，把AI带给了大众。然而在公司内部真正改变工作的，并不是ChatGPT，而是 — 它的RAG版本。同样是GPT-4，但 — 了解公司资料的GPT-4是一种完全不同的工具。新员工培训时间从6个月缩短到6周，内部政策查询时间从5分钟缩短到5秒，报告初稿撰写从3小时缩短到30分钟。

还有一点 — Patrick Lewis的论文是在2020年发表的。它在ChatGPT问世的2022年立即被应用，并非偶然。EP01中看到的1986年Hinton的反向传播、EP03的2017年Transformer、EP04的2020年GPT-3 — 全都是这样经过了2-7年的潜伏期，然后爆发式地进入产业。如今某篇被埋没的2026年的论文 — 将成为2030年的标准。

📖 八篇系列收官

从EP01开始的1958年Frank Rosenblatt的感知机。那台小小的5吨重的机器 — 在两次死亡又两次复活的过程中 — 我们一路追随着这个系列。

1986年Hinton的反向传播、1997年LSTM、2012年AlexNet的冲击、2017年Transformer的统一、2022年ChatGPT的爆发、2024年Sora的视频生成、2025年NVIDIA Blackwell，以及在2020年被埋没后复活的RAG。这一切都是同一条脉络。一个人的论文、一次洞见、一段潜伏期之后的爆发。

如果这个系列留下了一点什么 — 那就是AI并非突然出现，而是70年累积的结果。并且那70年的每一个阶段，如今仍在我们手机的相机、公司的副驾驶、半导体工厂的虚拟量测之中同时运转着。