出品 | 网易智能
作者 | 辰辰
编辑 | 王凤枝
AI智能体不只会干活了,它开始会复盘、返工,也能被考核了。
当地时间周三的Code with Claude开发者日上,Anthropic发布了Managed Agents、Outcomes Loop和Dreaming等一组新功能。它们共同指向一个方向:让AI不再只是等待提示词的代码助手,而是能接收目标、自动执行、评估结果,并在任务间隙继续整理经验的智能体系统。
公司创始人达里奥·阿莫代伊(Dario Amodei)在现场提到,Anthropic正坐在一辆"垂直冲顶的过山车"上。公司原本按每年10倍需求增长配置资源,但2026年第一季度实际年化增长率冲到了80倍。为了支撑这种需求,Anthropic甚至不得不联手SpaceX调用Colossus 1集群的算力。
这才是这次发布会的新意:Anthropic不是简单展示AI会做更多事,而是在试图把"AI做事"变成一套可分配、可验收、可复盘的生产流程。
一、疯狂的指数:当需求飙涨遇上SpaceX的算力
Anthropic内部有一个名为"垂直过山车"的Slack表情包,是达里奥和丹妮拉·阿莫代伊兄妹最常用的符号。在他们看来,公司正处在一条几乎垂直向上的曲线上。
这不是修辞。达里奥在开发者日的访谈中说,团队原本按每年10倍的需求增长来配置资源和基础设施,但2026年第一季度的年化营收增长和API使用负载双双超出预测,实际增长率达到了80倍。
Anthropic首席产品官在主旨演讲中也提到,平台API调用量同比增长了17倍。
这种需求直接撞上了算力的物理上限。为了续命,Anthropic主动找到了SpaceX,调用了Colossus 1集群的闲置算力。有网友在X上评论:"Anthropic在一年内增长了17倍,然后当天就与SpaceX签署了数据中心协议,这说明了一切。他们的增长速度如此之快,以至于计算机资源严重不足,不得不向埃隆·马斯克寻求帮助。人工智能竞赛现在已经演变成计算能力竞赛了。"
算力扩张的背后,是达里奥对Scaling Laws的坚定押注:只要算力没碰到物理天花板,AI的能力就能通过堆叠参数和数据继续提升。
在这个前提下,达里奥再次提到了他那个"一人价值十亿美金公司"的预测,并指出距离2026年底只剩不到八个月。他认为,随着Managed Agents(托管智能体)走向成熟,传统的人机协作正在变成"意志编排"。人来定义目标和评估标准,AI集群负责全部执行和监控。
这种变化在软件开发和数字原生行业会最先体现:只要任务能被拆成明确的量化指标,智能体就能接管执行。初创公司不再需要庞大的中间管理层,可能只需要一个能清晰定义愿景、设好考核标准的人,就能调度一支全天候运转的AI团队。当然,涉及复杂物理反馈和人际博弈的传统行业,节奏会慢得多,但在纯数字化的领域,压缩已经开始了。
二、梦境与闭环:AI开始自己判断"做没做好"
这次开发者日最核心的两个概念是"Dreaming"(梦境)和"Outcomes Loop"(结果闭环)。
传统智能体开发的最大瓶颈是人。每一步都要人来审核(Human-in-the-loop),效率上不去。Anthropic推出的"结果闭环",本质上是让AI自己当裁判:你设定评估标准(Rubric),AI自主判断输出是否达标,没达标就在后台反复重写、测试、纠错,直到通过为止。
这个功能在开发者社区引起的讨论最多。不少架构师认为,一旦AI能根据标准自我评估和修正,就意味着人类审核这个瓶颈被绕过去了。
"梦境"则是这套逻辑的延伸。简单说,就是AI在没有人类干预的情况下,自主在后台尝试上百条代码路径,通过Webhooks联动生产环境,找到可能需要人类花一周才能想到的最优解。
Jeroen Jippe Jansen在X上分享了一个细节:"梦境"功能能读取多达100份原始会话记录,意味着你自己没注意到的细节,AI也不会漏掉。
开发者Gabriel的描述更直观:智能体会在你休息的时间持续处理和精炼代码,等你醒来,它已经准备好了新的解决方案。
不过也不是所有人都买账。Reddit用户DangerousSetOfBewbs直接吐槽,"梦境"说白了就是"一种燃烧更多Token的新方式"。luigi3则指出,这些功能本质上是API大客户的特权,普通固定费率用户根本用不起。
对于个人开发者和小团队来说,这确实是个现实问题:功能很强,但token消耗也很猛,用不用得起是另一回事。
针对这种顾虑,Anthropic在现场同步宣布了配额调整:即日起取消Pro和Max用户在高峰时段的使用限制,Claude Code的五小时限额直接翻倍。算是在用实际动作回应"用不起"的质疑,把算力门槛往下压了一截。
三、印刷机时刻:Claude Code负责人说自己也不写代码了
Claude Code负责人鲍里斯·切尔尼(Boris Cherny)的个人经历,可能比任何功能演示都更能说明问题。他之前在Meta负责Instagram全球的代码质量,是制定规则的人。现在他在做的事,是让那套旧规则变得不再必要。
切尔尼在访谈中用了一个比喻:"印刷机时刻"。15世纪印刷机让识字不再是少数人的特权,今天AI正在让写代码变成一种通用能力。
他说自己半年前还在亲手写代码,现在大部分代码都是用高阶提示词构建的。工作方式变了:不再纠结括号怎么放、逻辑流怎么绕,而是通过对话表达意图,AI来构建、测试和展示结果。他管这叫"编排(Orchestration)"。
这种转变带来的一个直接后果是:软件行业的"迁移成本"在快速归零。切尔尼坦言,当AI能以极低成本重写任何复杂系统时,你花十年构建的技术壁垒,可能被竞争对手在几天内用AI重做一遍。
在开发者日现场,Anthropic展示了客户实测数据:合作伙伴Eve通过引入Managed Agents的"顾问策略"(Consultant Strategy),实现了5倍效率提升,原本五个人的工作量,现在一个人配合智能体就能完成。
Shopify和Mercado Libre这类拥有海量代码库的企业也已经深度接入了Claude的自主编程体系。根据披露的路线图,这两家公司有望在2026年第三季度实现90%的代码由AI自主完成。
X上的@B2Lance评论说,具备自学习能力的智能体已经不是工具了,而是员工,它们会把人从低效的重复劳动里彻底解放出来。
折髙一平(Ippei Oritaka)分享的案例显示,通过Background Agents可以实现数十个旧代码文件的并行重构。
但也有个人开发者在X上指出,Managed Agents展现出的能力对普通副业者来说已经"规格外"(Over-spec)了。
这种感受不难理解:当资深专家都能通过AI实现100%的代码产出时,留给新手练手的空间确实在被压缩。工具变强了,但不是每个人都需要那么强的工具,也不是每个人都负担得起。
这就引出了另一个问题:当AI接管了越来越多的代码编写,谁来保证这些代码是安全的?
四、被隐藏的Mythos:安全工具该不该公开
Anthropic在这次开发者日上首次展示了内部模型Mythos,一个专门用于自动化漏洞挖掘的系统。
根据现场演示,Mythos能在很短时间内定位深层逻辑漏洞,包括一些人类安全专家也难以察觉的问题。在Anthropic的设计中,Mythos充当的是智能体的"免疫系统":在代码部署前先做一轮自动化的安全拆解。
丹妮拉在访谈中解释了为什么需要这种工具:AI编写代码的速度在急剧增长,传统的人工安全审查已经跟不上了。如果不靠Mythos这个级别的自动化检测,就没办法保证智能体在"梦境"模式下自主迭代时不会引入安全隐患。
但达里奥同时明确表示,目前没有计划向公众开放Mythos。
这在开发者社区引发了争议。反对者的逻辑很直接:如果最强的漏洞检测工具只掌握在少数大公司手里,普通开发者和开源社区在面对安全威胁时就处于天然劣势。有人在Reddit上指出,当90%的代码由AI生成,而最强的安全扫描器却不对外开放,这实际上加剧了技术上的不对等。
这是Anthropic面临的一个真实张力:一方面想让AI尽可能多地替人干活,另一方面又必须确保干出来的活是安全的,而确保安全的工具本身又不能随便放出去。
在这些技术讨论之外,丹妮拉在访谈中还提到了一些小故事:有开发者用Claude找回了损坏硬盘里的婚礼照片,有人用它记录花园里番茄的生长。这些跟80倍增长、太空算力之类的宏大叙事完全不搭,但它们也是AI实际在做的事。
五、结语:在奇点到来前,学会与代理共生
开发者日上,切尔尼给年轻人提了两点建议:第一,不要怕智能体,要像学识字一样去学怎么驱动它们;第二,如果有创业想法,现在就动手,因为未来十年初创公司的数量可能会增长100倍。
Anthropic这次展示的东西,核心变化其实就一句话:从"模型帮你写代码"到"模型帮你管一整条生产线"。Managed Agents负责分配和执行,Outcomes Loop负责验收,Dreaming负责在空闲时间复盘和优化。拼在一起,就是一套完整的"数字工人"协议。
这套东西能走多远、会不会像宣传的那么好用,现在还说不准。但有一点已经很清楚了:AI公司之间的竞争,正在从"谁的模型更聪明"转向"谁能把模型嵌入真实的工作流程"。Anthropic这次押的方向,是后者。