Lucky Please · AI Report
Agents at Work

智能体如何替代人办公室与一线的真实工作流

Klarna 的 AI 干了 700人的活,Harvey 把律师两周的工作压缩成一天,医院的 AI 把医生倦怠率降了 13个百分点。可 Klarna 一年后又把人请了回来。把真实企业的案例拆成分步工作流,你就能看清智能体到底接走了什么、又在哪里停下。

Published 2026·06·12 · 12 min read · by Lucky Please Editorial
Thesis

不是"职业",而是"职务中的一个层"

"AI 抢走工作"这句话太粗糙了。细看真实的落地案例就会发现,智能体很少把一个人的职业整个端走。它接走的,是构成这份职业的多个层(layer)当中某一个特定的层 — 那些重复、定型的信息处理。客服的"查订单状态"、律师的"初稿"、开发者的"简单迁移"、医生的"写病历",都属于这种层。

所以结果会因职务而异。当定型处理几乎就是职务的全部时(一线咨询、简单文书),人就会减员;当定型处理只是职务的一部分时(战略、纠纷、面对面照护),人会被推到上面那一层。本文把四个真实案例画成工作流,让你一眼看清哪一步交给了智能体、哪一步留给了人。也看清当这条边界画错时,会发生什么。

客服 · Klarna
700人的活
2.3M 对话/月 · 11分钟 → 2分钟
法律 · Harvey
两周 → 一天
证词摘要 · 合同审查2天→2小时
工程 · Stripe
数月 → 几天
5,000万行 Ruby 迁移
医疗 · Abridge
倦怠率 -13个百分点
150+ 医疗机构 · 病历自动化
共同模式
替代的是"层"
定型信息处理 → 智能体
留下的位置
判断 · 关系 · 责任
人向上一层移动
Case · 01 · Customer Support

Klarna — 替掉 700人,又为何重新请人

金融科技公司 Klarna 在 2024年2月向全球开启了基于 OpenAI 的 AI 客服智能体。仅第一个月就处理了 230万次对话,公司称这相当于约 700名正式客服的工作量。解决时间从 11分钟缩短到 2分钟,重复咨询减少 25%,客户满意度与人工持平。公司预计仅 2024年就带来 4,000万美元的利润改善(建设成本 200~300万美元)。总人力从约 5,000人降到 3,500人(多为自然减员)。

从工作流看,一线咨询这份职务被整体重新分配了。

客户咨询 → 解决 (Klarna)
AGENT
① 接入·识别意图 — 接入聊天,识别语言(35种语言),判断对方在问什么。
AGENT
② 查询·执行 — 直接查询订单/支付系统,并执行退款、改期等操作。"我的订单到哪了?""扣款日是哪天?"在这一步就结束。
AGENT
③ 回复·结案 — 2分钟内应答、结案。整体约三分之二在这一线收尾。
HUMAN
④ 升级处理 — 复杂纠纷、欺诈申诉、还款困难(hardship)案例转交给人。这是牵涉情绪、例外与责任的一层。

到这里是常被引用的那一半,更重要的是另一半。2025年5月,CEO 塞巴斯蒂安·西米亚特科夫斯基公开承认"我们把人砍得太狠了",并重新开放了高端客服岗位的招聘。半年间客户满意度下滑,简单咨询里 AI 和人工不相上下,但在复杂纠纷与还款困难案例上,解决质量明显更低。说到底,上面工作流里的第④层,比想象中要厚得多。

Klarna 证明的,不是"AI 替代了 700人",而是一个更精确的命题——"一线咨询这一层会被替代,但它上面那一层暂时仍属于人"。 — Case 01 的教训
Case · 02 · Legal

Harvey — 把新人律师军团两周的活,压成一天

在定型文书劳动占职务很大比重的法律行业,法律 AI Harvey 很快站稳了脚跟。资产管理公司 Bridgewater 在大规模合同审查中节省了 95%以上的时间,把供应商合同审查从平均 2天缩短到 2小时。律所 A&O Shearman 在 43个司法辖区面向 4,000名员工全员部署,每周省下 2~3小时,合同审查时间缩短 30%。最惊人的数字来自诉讼端。在某个案件中,多名新人律师原本要花两周完成的证词摘要与主题分析,不到一天就完成了。

诉讼证据开示工作流 (Harvey)
AGENT
① 文档收集·归类 — 读取数千页证词、合同、邮件,按争点逐一打标签。
AGENT
② 摘要·初稿 — 生成证词摘要、主题分析、首版备忘录和合同审查初稿,连出处引用都标好。
HUMAN
③ 核验·战略 — 律师核对引用、对薄弱处做压力测试、制定取证策略。这是抓 AI 幻觉与错误引用的责任层。
HUMAN
④ 判断·关系 — 客户咨询、谈判、法庭辩护。押上资格与信任的最终一层。

值得注意的是新人律师的位置。某律所(Lynn Pinker)报告称,初级律师省下了原本花在初稿和大量文档审查上的时间,转而对论点做压力测试、准备取证,并更早、更深地参与到案件战略中。①②层交给智能体之后,人被往上推到了③④层。工作没有消失,重心向上移动了。

Case · 03 · Engineering

Stripe·TELUS — 开发者成为"指挥者"的位置

编程因为答案能自动评判(测试·编译),是智能体最早展开激战的领域。支付公司 Stripe 把一个 5,000万行规模的 Ruby 代码库迁移,从原计划的数月压缩到了几天(Anthropic 公布)。电信公司 TELUS 在内部引入智能体型编程工具后报告称,工程代码的发布加快了 30%,累计节省了 50万小时以上

大规模代码迁移 (Stripe 型)
HUMAN
① 设定目标·约束 — "把这个代码库迁到新框架,行为 100% 保留。"由工程师定义做什么、为什么做。
AGENT
② 拆解·并行执行 — 指挥型智能体把任务拆成数百条分支,分派给子智能体。各自改文件、跑测试。
AGENT
③ 自我纠错 — 测试失败 → 诊断错误 → 重新修复,无需人工反复循环。这是简单重复劳动整层蒸发的地方。
HUMAN
④ 评审·合并·担责 — 工程师审查改动、抓住细微的回归、对上线负责。

Anthropic 的智能体编程报告观察到的模式是两面的。每个任务的投入时间减少了(自动化),但人均产出的增幅更大(放大)。这意味着同样的人手能做出更多东西,于是它同时给"初级岗位会消失"的恐惧和"工程师从代码作者晋升为智能体军团指挥者"的乐观都提供了素材。但若缺了第④层 — 审查与担责 — 智能体就会变成一台快速量产看似合理之错误的机器。

Case · 04 · The Field

Abridge — 在一线,不是"替代",而是"在背后托住"

办公室之外、人要亲身上阵的一线,情形则不同,医疗就是典型。诊室里的 AI 环境记录工具(ambient scribe,如 Abridge 等)并不替代医生,而是一边听医生与患者的对话,一边自动写出病历和诊疗记录。它只把医生工作中最耗神的那一层行政层剥走。

诊疗 → 记录工作流 (Abridge 型)
HUMAN
① 诊疗·对话 — 医生看、听、诊断患者。共情、体格检查、临床判断 — 不可替代的一层。
AGENT
② 聆听·记录 — 实时聆听对话,自动写出 SOAP 记录与病历初稿。让医生看的是患者,而不是屏幕。
HUMAN
③ 签字·确认 — 医生审阅、修改记录并签字。病历的准确性与法律责任仍留在人身上。

数字很清楚。Abridge 已与 150家以上医疗机构签约;一项在 5家学术医院观察 1,800名临床医生的研究显示,每 8小时诊疗能省下 16分钟文书与 13分钟电子病历时间。一项 263名医生的研究中,倦怠率在 30天内从 51.9% 降到 38.8%;在 St. Luke's,下班后的文书工作减少了 35%,面对患者的时间增加了 15%。

The Pattern

一张表看清替代的边界

把四个案例放进同一张表,智能体接走的层与人守住的层之间的边界就清晰起来。

职务智能体接走的层人留下的层实测
客服查询·简单解决·一线应答纠纷·欺诈·还款困难·共情700人的活 · 11→2分钟
法律文档审查·摘要·初稿战略·压力测试·辩护·担责两周 → 一天
工程迁移·重复修复设计·审查·合并·担责数月→几天 · +30%
医疗(一线)病历·记录撰写(行政)诊断·检查·共情·签字倦怠率 51.9→38.8%

来源:各公司公布·相关研究(见下方注释)。共同点很清楚。智能体接走"定型·重复·信息处理"层,把"判断·例外·关系·责任"层留给人。一份职务会不会减员,取决于其中前一层的占比有多大。

Bottom Line

那么,我的工作会怎样

给当下的智能体一个最准确的称呼,不是"替代者",而是"能干但需要监督、可以无限扩张的新人军团"。这支军团迅速吞掉定型劳动的层,把人往上一层 — 判断·关系·责任 — 推。好消息和坏消息出自同一个事实。前一层占职务大部分的位置会减员;而对那些准备好向上走的人,则多出一根杠杆,让一个人指挥十个人的活。

给实务的启示有三条。第一,边界画错代价昂贵 — Klarna 低估了第④层,结果又把人请了回来。第二,审查层没有商量余地 — Harvey、Stripe、Abridge 都把最后的签字、合并、核验留给了人。第三,价值向上移动 — 消失的是初稿而非辩护,是写病历而非诊断。智能体时代的职业策略很简单:在智能体吞掉的那一层之上,你还能做什么。

📘 延伸阅读 · 智能体 AI — 过去一个月,掀翻 AI 牌局的技术到底是什么 · Claude Fable 5 发布 · 数字房租 — 靠半导体赚来、被订阅悄悄漏走的钱

参考资料 · Sources

  1. Klarna, "Klarna AI assistant handles two-thirds of customer service chats in its first month" (2024.02) — klarna.com(230万次·700人·11→2分钟·-25%·$40M,一手)
  2. CX Dive, "Klarna changes its AI tune and again recruits humans for customer service" (2025) — customerexperiencedive.com(重新招聘·高端客服)
  3. Harvey, "How Harvey Saves Lawyers Time" / 客户案例 — harvey.ai(Bridgewater 2天→2小时·A&O Shearman 4,000名/43个辖区·证词摘要两周→一天)
  4. Anthropic, "Claude Fable 5 / Opus 4.8" 发布 — Stripe 5,000万行迁移(数月→几天),一手
  5. Anthropic, "2026 Agentic Coding Trends Report" — TELUS +30%·50万小时,每任务时间↓·产出量↑ — resources.anthropic.com
  6. 临床研究(1,800名/5家学术医院;263名/6家医院,倦怠率 51.9→38.8%)及 Abridge 150+ 医疗机构部署 — 医学·行业媒体综合
  7. STAT, "Large AI scribe study finds modest time savings, inconsistent use" (2026.04) — statnews.com(平衡数据)
  8. St. Luke's·AMA 报告(下班后文书 -35%·面对面 +15%·约 15,000小时节省)— 医疗创新媒体综合