2020年5月,Patrick Lewis在Meta AI Research向NeurIPS提交了一篇论文。那篇论文 — 被埋没了整整两年。2022年11月ChatGPT问世后,所有企业都浮现出同一个问题。"ChatGPT不了解我们公司的资料啊?"这时有人翻出了那篇被埋没的论文。
论文标题:"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"。简称 RAG。核心思想一句话 — "在模型作答之前,先从外部知识库中检索并取回相关文档,然后将其作为上下文来生成答案。"
为什么这很重要?2020年的GPT-3拥有1750亿个参数,但 — 对于训练数据中没有的信息(2020年9月之后发生的事件、公司内部资料等)却无能为力。此外还有"幻觉(hallucination)"问题 — 对不知道的事情煞有介事地编造谎言。RAG同时解决了这两个问题 — "不要依据训练数据,而要看检索取回的真实文档来作答"。
然而 — 只有学术界知道。产业界没有接收到。原因很简单。因为当时LLM本身还没有走近普通人。2020年的GPT-3只有OpenAI API的测试版用户知道。所以RAG只是作为"有趣的学术成果"被埋没了。
EP04中看到的那一天。ChatGPT 5天达到100万人,2个月达到1亿人。CEO们开始在会议中打开ChatGPT。然后 — 同一个问题在所有公司同时浮现。
"ChatGPT真的很聪明……但它对我们公司的人事规定或差旅费政策完全不了解。能不能把我们的内部资料拿去训练它?"
— 2023年几乎所有企业IT部门的会议起初尝试了fine-tuning(微调)。把公司的1万页资料拿去训练GPT-3。结果是 — 贵(GPU数万小时)、慢(2周以上),而且每次添加新资料都得重新训练。并且微调过的模型仍然会产生幻觉。它会把公司政策中没有的内容煞有介事地编造出来。
这时有人 — 再次翻出了2020年Patrick Lewis的论文。"不需要去训练。检索出来给它看就行了。"
① 用户提问:"差旅费上限是多少?"
② 向量检索:把问题转换为embedding向量 → 在公司内部文档数据库中找出语义上最相似的文档
③ 提取相关文档:取回排名靠前的3-5个文档(例如:"差旅费规定"文档第2章)
④ 向LLM注入上下文:"请参考以下文档作答:[文档内容]。问题:差旅费上限是多少?"
⑤ 生成答案:LLM看着那份文档生成答案 → "根据公司规定§2.3,国内出差每人每日15万韩元……"
要让RAG运作 — 就需要能快速检索数百万个文档向量的数据库。普通数据库(PostgreSQL、MongoDB)在向量检索上很慢。于是一个新品类诞生了 — Vector Database。
2019年创办Pinecone时,谁都不知道"vector DB"是什么。2023年4月 — 通过Series B融资$100M(总估值约$750M)。同年Weaviate、Chroma、Qdrant、Milvus也都爆发式增长。PostgreSQL的pgvector扩展也几乎成为事实标准。Vector DB市场正在迅速扩张至数十亿美元规模。
最早巧妙地应用RAG的公司之一是 — GitHub。GitHub Copilot从2021年起就是代码自动补全工具,2024年4月发布了"Copilot Workspace"技术预览。把正在处理的整个代码库进行索引 → 在编写新代码时自动检索相关函数、类并作为上下文使用,这种RAG模式是核心。
而在同一时期。Microsoft 365 Copilot于2023年11月正式发布。Word、Excel、PowerPoint、Outlook都通过RAG检索公司内部OneDrive、SharePoint中的文档来作答。说一句"帮我总结上个月的营销报告" — 它就会找到那份文档并总结。所有office worker的工作方式开始改变。
还有企业自建。进入2024年 — McKinsey、Bain等的咨询报告开始一致地指出,众多大企业正在引入自建的企业内部LLM副驾驶。在韩国 — 三星电子在屏蔽公司内部ChatGPT后发布了自研的GAUSS(2023.11)、LG的GenAI Studio、SK电讯的A.X等。几乎所有大企业都呈现出相似的模式。
EP04中看到的ChatGPT的冲击,把AI带给了大众。然而在公司内部真正改变工作的,并不是ChatGPT,而是 — 它的RAG版本。同样是GPT-4,但 — 了解公司资料的GPT-4是一种完全不同的工具。新员工培训时间从6个月缩短到6周,内部政策查询时间从5分钟缩短到5秒,报告初稿撰写从3小时缩短到30分钟。
还有一点 — Patrick Lewis的论文是在2020年发表的。它在ChatGPT问世的2022年立即被应用,并非偶然。EP01中看到的1986年Hinton的反向传播、EP03的2017年Transformer、EP04的2020年GPT-3 — 全都是这样经过了2-7年的潜伏期,然后爆发式地进入产业。如今某篇被埋没的2026年的论文 — 将成为2030年的标准。
从EP01开始的1958年Frank Rosenblatt的感知机。那台小小的5吨重的机器 — 在两次死亡又两次复活的过程中 — 我们一路追随着这个系列。
1986年Hinton的反向传播、1997年LSTM、2012年AlexNet的冲击、2017年Transformer的统一、2022年ChatGPT的爆发、2024年Sora的视频生成、2025年NVIDIA Blackwell,以及在2020年被埋没后复活的RAG。这一切都是同一条脉络。一个人的论文、一次洞见、一段潜伏期之后的爆发。
如果这个系列留下了一点什么 — 那就是AI并非突然出现,而是70年累积的结果。并且那70年的每一个阶段,如今仍在我们手机的相机、公司的副驾驶、半导体工厂的虚拟量测之中同时运转着。