一个5,000万行代码库的迁移,原计划要花五个月。AI智能体军团一上场,几天就收工了。过去一个月里,AI业界的模型发布、基准测试大战、价格上调、就业争论,直到股市大跌,贯穿这一切新闻的是同一项技术。本文解剖这个“长时程自主智能体”。
把最近一个月的AI头条排成一排看,它们像是彼此无关的新闻。5月28日,Anthropic公开了并行指挥数百个子智能体的“Dynamic Workflows”。6月9日,最新模型Claude Fable 5问世,发布的主角不是聊天性能,而是智能体基准测试的飞跃。支付公司Stripe披露,原定五个月的5,000万行Ruby代码库迁移,被智能体压缩到了几天。而6月5日,在“AI估值过高”的争论声中,纳斯达克大跌4.2%。
模型发布、企业案例、市场暴跌,全是同一项技术的不同面孔:智能体AI(Agentic AI),尤其是其中能在人离开座位的几小时甚至几天里独自干活的长时程自主智能体(long-horizon agent)。这篇文章依次讲清:它到底是什么技术、如何运作,以及为什么整整一个月吵个不停。
聊天机器人和智能体都源自同样的大语言模型(LLM),干活的方式却不同。聊天机器人是一问一答的往返结构,答错了,下一个问题也得由人来提。智能体则不一样,接到一个目标后自己转起循环。那个循环正是这项技术的心脏。
聊天机器人与其说是秘书,不如说是百科全书。智能体第一次有了“员工”的样子:上班、拆解任务、动用工具、自查自验,下班前交出结果。 — 这项技术的一句话总结
“变强了”这种话每个月都有,这次不同的是跨度。下表是衡量智能体能力的代表性基准测试中,最新一代(6月9日发布的Fable 5)与上一代及竞品模型拉开的差距。
| 智能体基准测试 | Fable 5 | 上一代 (Opus 4.8) | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro (实战代码修复) | 80.3 | 69.2 | 58.6 |
| FrontierCode (最高难度) | 29.3 | 13.4 | 5.7 |
| OSWorld-Verified (计算机操作) | 85.0 | 83.4 | 78.7 |
| AutomationBench (工具自动化) | 17.4 | 15.5 | 12.9 |
| Legal Agent (法律智能体) | 13.3 | 10.4 | 2.1 |
单位 %。来源: Anthropic官方基准测试表(2026.06.09,经可信媒体转录交叉核验)。尤其是FrontierCode 的 13.4 → 29.3,意味着最高难度任务的解决率在12天里翻了一倍,让“基准测试已饱和”的论调相形见绌。
实验室外的数字更有意思。Stripe那场从五个月缩到几天的迁移,是这一个月里被引用最多的案例;Anthropic智能体编程报告中的电信运营商TELUS则报告,引入智能体后发布速度提升30%,累计节省超过50万小时。市场研究机构的预期也指向同一方向:Gartner预计,企业应用内置智能体的比例将从2025年的不到5%跃升至2026年底的40%;智能体AI市场规模,则被看好从目前约78亿美元增长到2030年的520亿美元以上。
① 能力之争 — 从“演示”到“实绩”。直到去年,智能体还是演示视频里的存在。过去一个月之所以成为分水岭,是因为Stripe、TELUS这类有名有姓企业的实测数字开始出现。基准测试的飞跃与现场实证撞在同一个月,“真家伙来了”与“被精挑细选的成功案例”两派的争论就此全面展开。
② 经济之争 — 涨价了反而卖得更多。最新模型的价格是每100万token输入10美元、输出50美元,相当于上一代的两倍。需求却仍在涌来。智能体是替人燃烧token干活的存在,一小时能烧掉几十万token。在企业看来,“昂贵的token × 暴增的用量”就是一笔新增的固定开支。这正是我们此前在数字房租一文中谈过的账单变厚的机制,同时也是模型公司营收曲线变陡的机制。
③ 就业之争 — 开发者的位置。一边是智能体吞掉初级开发者工作的恐惧,一边是“工程师将从代码写手晋升为智能体军团指挥官”的乐观,两者正面相撞。Anthropic报告里的观察给双方都递了弹药:单个任务的投入时间减少了(自动化),人均产出却增加得更多(放大效应)。就业总量会缩水,还是角色会转变,数据尚未给出裁决。
④ 安全之争 — 能力的双刃。能独自使用工具、执行代码的AI,也能用同样的能力寻找漏洞、编写恶意代码。6月9日的发布把模型拆成安全版(Fable 5)与限量开放的非封印版(Mythos 5)两套,这本身就是一份官方承认:智能体的能力已经到了“不能见者有份”的水平。非封印版78%的漏洞利用检测得分,对防御方是武器,对监管机构则成了课题。
为求平衡,局限也以同样的分量写下。第一,最高难度任务的成功率仍停在30%一线。FrontierCode 的 29.3 既是“翻倍的飞跃”,也意味着“十次里有七次失败”。第二,审核仍是人的活。智能体信心满满交出的结果里掺着微妙错误的问题只是减少了,并没有消失,所以实际落地的企业无一例外保留了人工评审环节。第三,成本失控。转着循环的智能体越是失败,烧的token就越多;没人盯着的智能体可能颗粒无收,账单却越垒越高。第四,责任的真空。智能体把生产数据库删了,算谁的责任?权限设计、审计日志乃至保险,制度还在追赶技术。
归根结底,眼下的智能体是一支“能干但需要监督的新人军团”。只不过这批新人的成长速度不是按季度算,而是按周算,这才是过去一个月透露出的真正新闻。