Lucky Blog · AI Report

Agents at Work

智能体如何替代人办公室与一线的真实工作流

Klarna 的 AI 干了 700人的活，Harvey 把律师两周的工作压缩成一天，医院的 AI 把医生倦怠率降了 13个百分点。可 Klarna 一年后又把人请了回来。把真实企业的案例拆成分步工作流，你就能看清智能体到底接走了什么、又在哪里停下。

Published 2026·06·12 · 12 min read · by Lucky Blog Editorial

Thesis

不是"职业"，而是"职务中的一个层"

"AI 抢走工作"这句话太粗糙了。细看真实的落地案例就会发现，智能体很少把一个人的职业整个端走。它接走的，是构成这份职业的多个层（layer）当中某一个特定的层 — 那些重复、定型的信息处理。客服的"查订单状态"、律师的"初稿"、开发者的"简单迁移"、医生的"写病历"，都属于这种层。

所以结果会因职务而异。当定型处理几乎就是职务的全部时（一线咨询、简单文书），人就会减员；当定型处理只是职务的一部分时（战略、纠纷、面对面照护），人会被推到上面那一层。本文把四个真实案例画成工作流，让你一眼看清哪一步交给了智能体、哪一步留给了人。也看清当这条边界画错时，会发生什么。

客服 · Klarna

700人的活

2.3M 对话/月 · 11分钟 → 2分钟

法律 · Harvey

两周 → 一天

证词摘要 · 合同审查2天→2小时

工程 · Stripe

数月 → 几天

5,000万行 Ruby 迁移

医疗 · Abridge

倦怠率 -13个百分点

150+ 医疗机构 · 病历自动化

共同模式

替代的是"层"

定型信息处理 → 智能体

留下的位置

判断 · 关系 · 责任

人向上一层移动

Case · 01 · Customer Support

Klarna — 替掉 700人，又为何重新请人

金融科技公司 Klarna 在 2024年2月向全球开启了基于 OpenAI 的 AI 客服智能体。仅第一个月就处理了 230万次对话，公司称这相当于约 700名正式客服的工作量。解决时间从 11分钟缩短到 2分钟，重复咨询减少 25%，客户满意度与人工持平。公司预计仅 2024年就带来 4,000万美元的利润改善（建设成本 200~300万美元）。总人力从约 5,000人降到 3,500人（多为自然减员）。

从工作流看，一线咨询这份职务被整体重新分配了。

客户咨询 → 解决 (Klarna)

AGENT

① 接入·识别意图 — 接入聊天，识别语言（35种语言），判断对方在问什么。

AGENT

② 查询·执行 — 直接查询订单/支付系统，并执行退款、改期等操作。"我的订单到哪了？""扣款日是哪天？"在这一步就结束。

AGENT

③ 回复·结案 — 2分钟内应答、结案。整体约三分之二在这一线收尾。

HUMAN

④ 升级处理 — 复杂纠纷、欺诈申诉、还款困难（hardship）案例转交给人。这是牵涉情绪、例外与责任的一层。

到这里是常被引用的那一半，更重要的是另一半。2025年5月，CEO 塞巴斯蒂安·西米亚特科夫斯基公开承认"我们把人砍得太狠了"，并重新开放了高端客服岗位的招聘。半年间客户满意度下滑，简单咨询里 AI 和人工不相上下，但在复杂纠纷与还款困难案例上，解决质量明显更低。说到底，上面工作流里的第④层，比想象中要厚得多。

Klarna 证明的，不是"AI 替代了 700人"，而是一个更精确的命题——"一线咨询这一层会被替代，但它上面那一层暂时仍属于人"。 — Case 01 的教训

Case · 02 · Legal

Harvey — 把新人律师军团两周的活，压成一天

在定型文书劳动占职务很大比重的法律行业，法律 AI Harvey 很快站稳了脚跟。资产管理公司 Bridgewater 在大规模合同审查中节省了 95%以上的时间，把供应商合同审查从平均 2天缩短到 2小时。律所 A&O Shearman 在 43个司法辖区面向 4,000名员工全员部署，每周省下 2~3小时，合同审查时间缩短 30%。最惊人的数字来自诉讼端。在某个案件中，多名新人律师原本要花两周完成的证词摘要与主题分析，不到一天就完成了。

诉讼证据开示工作流 (Harvey)

AGENT

① 文档收集·归类 — 读取数千页证词、合同、邮件，按争点逐一打标签。

AGENT

② 摘要·初稿 — 生成证词摘要、主题分析、首版备忘录和合同审查初稿，连出处引用都标好。

HUMAN

③ 核验·战略 — 律师核对引用、对薄弱处做压力测试、制定取证策略。这是抓 AI 幻觉与错误引用的责任层。

HUMAN

④ 判断·关系 — 客户咨询、谈判、法庭辩护。押上资格与信任的最终一层。

值得注意的是新人律师的位置。某律所（Lynn Pinker）报告称，初级律师省下了原本花在初稿和大量文档审查上的时间，转而对论点做压力测试、准备取证，并更早、更深地参与到案件战略中。①②层交给智能体之后，人被往上推到了③④层。工作没有消失，重心向上移动了。

Case · 03 · Engineering

Stripe·TELUS — 开发者成为"指挥者"的位置

编程因为答案能自动评判（测试·编译），是智能体最早展开激战的领域。支付公司 Stripe 把一个 5,000万行规模的 Ruby 代码库迁移，从原计划的数月压缩到了几天（Anthropic 公布）。电信公司 TELUS 在内部引入智能体型编程工具后报告称，工程代码的发布加快了 30%，累计节省了 50万小时以上。

大规模代码迁移 (Stripe 型)

HUMAN

① 设定目标·约束 — "把这个代码库迁到新框架，行为 100% 保留。"由工程师定义做什么、为什么做。

AGENT

② 拆解·并行执行 — 指挥型智能体把任务拆成数百条分支，分派给子智能体。各自改文件、跑测试。

AGENT

③ 自我纠错 — 测试失败 → 诊断错误 → 重新修复，无需人工反复循环。这是简单重复劳动整层蒸发的地方。

HUMAN

④ 评审·合并·担责 — 工程师审查改动、抓住细微的回归、对上线负责。

Anthropic 的智能体编程报告观察到的模式是两面的。每个任务的投入时间减少了（自动化），但人均产出的增幅更大（放大）。这意味着同样的人手能做出更多东西，于是它同时给"初级岗位会消失"的恐惧和"工程师从代码作者晋升为智能体军团指挥者"的乐观都提供了素材。但若缺了第④层 — 审查与担责 — 智能体就会变成一台快速量产看似合理之错误的机器。

Case · 04 · The Field

Abridge — 在一线，不是"替代"，而是"在背后托住"

办公室之外、人要亲身上阵的一线，情形则不同，医疗就是典型。诊室里的 AI 环境记录工具（ambient scribe，如 Abridge 等）并不替代医生，而是一边听医生与患者的对话，一边自动写出病历和诊疗记录。它只把医生工作中最耗神的那一层行政层剥走。

诊疗 → 记录工作流 (Abridge 型)

HUMAN

① 诊疗·对话 — 医生看、听、诊断患者。共情、体格检查、临床判断 — 不可替代的一层。

AGENT

② 聆听·记录 — 实时聆听对话，自动写出 SOAP 记录与病历初稿。让医生看的是患者，而不是屏幕。

HUMAN

③ 签字·确认 — 医生审阅、修改记录并签字。病历的准确性与法律责任仍留在人身上。

数字很清楚。Abridge 已与 150家以上医疗机构签约；一项在 5家学术医院观察 1,800名临床医生的研究显示，每 8小时诊疗能省下 16分钟文书与 13分钟电子病历时间。一项 263名医生的研究中，倦怠率在 30天内从 51.9% 降到 38.8%；在 St. Luke's，下班后的文书工作减少了 35%，面对患者的时间增加了 15%。

The Pattern

一张表看清替代的边界

把四个案例放进同一张表，智能体接走的层与人守住的层之间的边界就清晰起来。

职务	智能体接走的层	人留下的层	实测
客服	查询·简单解决·一线应答	纠纷·欺诈·还款困难·共情	700人的活 · 11→2分钟
法律	文档审查·摘要·初稿	战略·压力测试·辩护·担责	两周 → 一天
工程	迁移·重复修复	设计·审查·合并·担责	数月→几天 · +30%
医疗（一线）	病历·记录撰写（行政）	诊断·检查·共情·签字	倦怠率 51.9→38.8%

来源：各公司公布·相关研究（见下方注释）。共同点很清楚。智能体接走"定型·重复·信息处理"层，把"判断·例外·关系·责任"层留给人。一份职务会不会减员，取决于其中前一层的占比有多大。

Bottom Line

那么，我的工作会怎样

给当下的智能体一个最准确的称呼，不是"替代者"，而是"能干但需要监督、可以无限扩张的新人军团"。这支军团迅速吞掉定型劳动的层，把人往上一层 — 判断·关系·责任 — 推。好消息和坏消息出自同一个事实。前一层占职务大部分的位置会减员；而对那些准备好向上走的人，则多出一根杠杆，让一个人指挥十个人的活。

给实务的启示有三条。第一，边界画错代价昂贵 — Klarna 低估了第④层，结果又把人请了回来。第二，审查层没有商量余地 — Harvey、Stripe、Abridge 都把最后的签字、合并、核验留给了人。第三，价值向上移动 — 消失的是初稿而非辩护，是写病历而非诊断。智能体时代的职业策略很简单：在智能体吞掉的那一层之上，你还能做什么。

📘 延伸阅读 · 智能体 AI — 过去一个月，掀翻 AI 牌局的技术到底是什么 · Claude Fable 5 发布 · 数字房租 — 靠半导体赚来、被订阅悄悄漏走的钱

参考资料 · Sources

Klarna, "Klarna AI assistant handles two-thirds of customer service chats in its first month" (2024.02) — klarna.com（230万次·700人·11→2分钟·-25%·$40M，一手）
CX Dive, "Klarna changes its AI tune and again recruits humans for customer service" (2025) — customerexperiencedive.com（重新招聘·高端客服）
Harvey, "How Harvey Saves Lawyers Time" / 客户案例 — harvey.ai（Bridgewater 2天→2小时·A&O Shearman 4,000名/43个辖区·证词摘要两周→一天）
Anthropic, "Claude Fable 5 / Opus 4.8" 发布 — Stripe 5,000万行迁移（数月→几天），一手
Anthropic, "2026 Agentic Coding Trends Report" — TELUS +30%·50万小时，每任务时间↓·产出量↑ — resources.anthropic.com
临床研究（1,800名/5家学术医院；263名/6家医院，倦怠率 51.9→38.8%）及 Abridge 150+ 医疗机构部署 — 医学·行业媒体综合
STAT, "Large AI scribe study finds modest time savings, inconsistent use" (2026.04) — statnews.com（平衡数据）
St. Luke's·AMA 报告（下班后文书 -35%·面对面 +15%·约 15,000小时节省）— 医疗创新媒体综合

不是"职业"，而是"职务中的一个层"

Klarna — 替掉 700人，又为何重新请人

Harvey — 把新人律师军团两周的活，压成一天

Stripe·TELUS — 开发者成为"指挥者"的位置

Abridge — 在一线，不是"替代"，而是"在背后托住"

平衡 — 它不是"奇迹"

一张表看清替代的边界

那么，我的工作会怎样

参考资料 · Sources