5,000만 줄짜리 코드베이스 이전에 다섯 달이 걸릴 예정이었다. AI 에이전트 군단이 투입되자 며칠로 줄었다. 지난 한 달 AI 업계의 모델 발표, 벤치마크 전쟁, 가격 인상, 일자리 논쟁, 증시 급락까지. 그 모든 뉴스를 관통하는 한 가지 기술, '장기 자율 에이전트'를 해부한다.
최근 한 달의 AI 헤드라인을 늘어놓고 보면 서로 다른 뉴스처럼 보인다. 5월 28일 Anthropic 이 수백 개의 서브에이전트를 병렬로 지휘하는 "Dynamic Workflows" 를 공개했다. 6월 9일에는 최신 모델 Claude Fable 5 가 나왔는데, 발표의 주인공은 챗봇 성능이 아니라 에이전트 벤치마크의 도약이었다. 결제 기업 Stripe 는 5,000만 줄 Ruby 코드베이스 이전에 예정된 다섯 달을 에이전트로 며칠로 압축했다고 밝혔다. 그리고 6월 5일, "AI 밸류에이션이 과하다"는 논쟁 속에 나스닥이 4.2% 급락했다.
모델 발표, 기업 사례, 시장 급락. 전부 한 가지 기술의 다른 얼굴이다. 에이전틱 AI(Agentic AI), 그중에서도 사람이 자리를 비운 사이 몇 시간이고 며칠이고 스스로 일하는 장기 자율 에이전트(long-horizon agent) 다. 이 글은 그 기술이 정확히 무엇인지, 어떻게 작동하는지, 그리고 왜 한 달 내내 시끄러운지를 차례로 정리한다.
챗봇과 에이전트는 같은 거대언어모델(LLM)에서 출발하지만, 일하는 방식이 다르다. 챗봇은 한 번 묻고 한 번 답하는 왕복 구조다. 답이 틀려도 다음 질문은 사람이 던져야 한다. 에이전트는 목표 하나를 받으면 스스로 루프를 돈다. 그 루프가 이 기술의 심장이다.
챗봇은 비서가 아니라 백과사전이었다. 에이전트는 처음으로 '직원'의 형태를 갖췄다. 출근해서, 일을 쪼개고, 도구를 쓰고, 검수하고, 퇴근 전에 결과를 내놓는다. — 이 기술의 한 줄 요약
"좋아졌다"는 말은 매달 나온다. 이번이 다른 건 도약의 폭이다. 아래는 에이전트 능력을 재는 대표 벤치마크에서 최신 세대(6월 9일 공개 Fable 5)가 직전 세대·경쟁 모델과 벌린 격차다.
| 에이전트 벤치마크 | Fable 5 | 직전 (Opus 4.8) | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro (실전 코딩 수리) | 80.3 | 69.2 | 58.6 |
| FrontierCode (난도 최상) | 29.3 | 13.4 | 5.7 |
| OSWorld-Verified (컴퓨터 조작) | 85.0 | 83.4 | 78.7 |
| AutomationBench (툴 자동화) | 17.4 | 15.5 | 12.9 |
| Legal Agent (법률 에이전트) | 13.3 | 10.4 | 2.1 |
단위 %. 출처: Anthropic 공식 벤치마크 표(2026.06.09, 신뢰 매체 전사 교차검증). 특히 FrontierCode 의 13.4 → 29.3 은 12일 만에 난도 최상 과제 해결률이 두 배가 된 것으로, "벤치마크 포화" 논쟁을 무색하게 만든 숫자다.
실험실 밖 숫자가 더 흥미롭다. Stripe 의 다섯 달짜리 마이그레이션이 며칠로 줄어든 게 한 달 사이 가장 많이 인용된 사례이고, Anthropic 의 에이전틱 코딩 리포트에 실린 통신사 TELUS 는 에이전트 도입 후 출시 속도 30% 가속, 누적 50만 시간 이상 절감을 보고했다. 시장조사 쪽 전망도 같은 방향이다. Gartner 는 기업 애플리케이션의 에이전트 내장 비율이 2025년 5% 미만에서 2026년 말 40%로 뛴다고 봤고, 에이전틱 AI 시장 규모는 현재 약 78억 달러에서 2030년 520억 달러 이상으로의 성장이 전망된다.
① 능력 논쟁 — "데모"에서 "실적"으로. 작년까지 에이전트는 시연 영상 속 존재였다. 지난 한 달이 분수령이 된 건 Stripe·TELUS 처럼 이름 있는 기업의 실측 숫자가 나오기 시작했기 때문이다. 벤치마크 도약과 현장 실증이 같은 달에 겹치자, "진짜가 왔다"는 쪽과 "선별된 성공 사례"라는 쪽의 논쟁이 본격화됐다.
② 경제 논쟁 — 비싸졌는데 더 팔린다. 최신 모델 가격은 100만 토큰당 입력 10달러·출력 50달러로 직전 세대의 두 배다. 그런데도 수요가 몰린다. 에이전트는 사람 대신 토큰을 태우며 일하는 존재라, 시간당 수십만 토큰을 쓴다. 기업 입장에선 "비싼 토큰 × 폭증하는 사용량"이 곧 신규 고정비다. 우리가 앞서 다룬 디지털 월세 청구서가 굵어지는 메커니즘이고, 동시에 모델 회사들의 매출 곡선이 가팔라지는 메커니즘이다.
③ 일자리 논쟁 — 개발자의 자리. 에이전트가 주니어 개발자의 일을 흡수한다는 공포와, "엔지니어는 코드 작성자에서 에이전트 군단의 지휘자로 승격된다"는 낙관이 충돌한다. Anthropic 리포트의 관찰은 양쪽 모두에 재료를 준다. 과제당 투입 시간은 줄었는데(자동화), 1인당 산출량은 그보다 크게 늘었다(증폭). 일자리의 총량이 줄지 역할이 바뀔지는 아직 데이터가 판가름하지 못했다.
④ 안전 논쟁 — 능력의 양날. 혼자서 도구를 쓰고 코드를 실행하는 AI 는, 같은 능력으로 취약점을 찾고 악용 코드를 짤 수도 있다. 6월 9일 발표가 모델을 안전판(Fable 5)과 제한 공개 비봉인판(Mythos 5) 둘로 쪼갠 것 자체가, 에이전트 능력이 "누구에게나 다 줄 수는 없는" 수준에 도달했다는 공식 인정이다. 비봉인판의 익스플로잇 탐지 점수(78%)는 방어자에겐 무기, 규제 당국에겐 숙제가 됐다.
균형을 위해 한계도 같은 무게로 적는다. 첫째, 난도 최상 과제의 성공률은 여전히 30% 선이다. FrontierCode 29.3 은 "두 배 도약"인 동시에 "열에 일곱은 실패"라는 뜻이다. 둘째, 검수는 사람 몫이다. 에이전트가 자신 있게 내놓은 결과물에 미묘한 오류가 섞이는 문제는 줄었을 뿐 사라지지 않았고, 그래서 실무 도입처는 예외 없이 인간 리뷰 단계를 유지한다. 셋째, 비용 폭주. 루프를 도는 에이전트는 실패할수록 토큰을 더 태운다. 감독 없는 에이전트는 성과 없이 청구서만 쌓을 수 있다. 넷째, 책임의 공백. 에이전트가 운영 DB 를 날리면 누구 책임인가. 권한 설계와 감사 로그, 보험까지, 제도가 기술을 따라가는 중이다.
요컨대 지금의 에이전트는 "유능하지만 감독이 필요한 신입 군단"이다. 다만 그 신입들의 성장 속도가 분기 단위가 아니라 주 단위라는 게, 지난 한 달이 보여 준 진짜 뉴스다.