Anthropic放出“数字卷王”：自己打分自己返工，还会半夜“做梦”涨经验

出品 | 网易智能

作者 | 辰辰

编辑 | 王凤枝

AI智能体不只会干活了，它开始会复盘、返工，也能被考核了。

当地时间周三的Code with Claude开发者日上，Anthropic发布了Managed Agents、Outcomes Loop和Dreaming等一组新功能。它们共同指向一个方向：让AI不再只是等待提示词的代码助手，而是能接收目标、自动执行、评估结果，并在任务间隙继续整理经验的智能体系统。

公司创始人达里奥·阿莫代伊(Dario Amodei)在现场提到，Anthropic正坐在一辆"垂直冲顶的过山车"上。公司原本按每年10倍需求增长配置资源，但2026年第一季度实际年化增长率冲到了80倍。为了支撑这种需求，Anthropic甚至不得不联手SpaceX调用Colossus 1集群的算力。

这才是这次发布会的新意：Anthropic不是简单展示AI会做更多事，而是在试图把"AI做事"变成一套可分配、可验收、可复盘的生产流程。

一、疯狂的指数：当需求飙涨遇上SpaceX的算力

Anthropic内部有一个名为"垂直过山车"的Slack表情包，是达里奥和丹妮拉·阿莫代伊兄妹最常用的符号。在他们看来，公司正处在一条几乎垂直向上的曲线上。

这不是修辞。达里奥在开发者日的访谈中说，团队原本按每年10倍的需求增长来配置资源和基础设施，但2026年第一季度的年化营收增长和API使用负载双双超出预测，实际增长率达到了80倍。

Anthropic首席产品官在主旨演讲中也提到，平台API调用量同比增长了17倍。

这种需求直接撞上了算力的物理上限。为了续命，Anthropic主动找到了SpaceX，调用了Colossus 1集群的闲置算力。有网友在X上评论："Anthropic在一年内增长了17倍，然后当天就与SpaceX签署了数据中心协议，这说明了一切。他们的增长速度如此之快，以至于计算机资源严重不足，不得不向埃隆·马斯克寻求帮助。人工智能竞赛现在已经演变成计算能力竞赛了。"

算力扩张的背后，是达里奥对Scaling Laws的坚定押注：只要算力没碰到物理天花板，AI的能力就能通过堆叠参数和数据继续提升。

在这个前提下，达里奥再次提到了他那个"一人价值十亿美金公司"的预测，并指出距离2026年底只剩不到八个月。他认为，随着Managed Agents(托管智能体)走向成熟，传统的人机协作正在变成"意志编排"。人来定义目标和评估标准，AI集群负责全部执行和监控。

这种变化在软件开发和数字原生行业会最先体现：只要任务能被拆成明确的量化指标，智能体就能接管执行。初创公司不再需要庞大的中间管理层，可能只需要一个能清晰定义愿景、设好考核标准的人，就能调度一支全天候运转的AI团队。当然，涉及复杂物理反馈和人际博弈的传统行业，节奏会慢得多，但在纯数字化的领域，压缩已经开始了。

二、梦境与闭环：AI开始自己判断"做没做好"

这次开发者日最核心的两个概念是"Dreaming"(梦境)和"Outcomes Loop"(结果闭环)。

传统智能体开发的最大瓶颈是人。每一步都要人来审核(Human-in-the-loop)，效率上不去。Anthropic推出的"结果闭环"，本质上是让AI自己当裁判：你设定评估标准(Rubric)，AI自主判断输出是否达标，没达标就在后台反复重写、测试、纠错，直到通过为止。

这个功能在开发者社区引起的讨论最多。不少架构师认为，一旦AI能根据标准自我评估和修正，就意味着人类审核这个瓶颈被绕过去了。

"梦境"则是这套逻辑的延伸。简单说，就是AI在没有人类干预的情况下，自主在后台尝试上百条代码路径，通过Webhooks联动生产环境，找到可能需要人类花一周才能想到的最优解。

Jeroen Jippe Jansen在X上分享了一个细节："梦境"功能能读取多达100份原始会话记录，意味着你自己没注意到的细节，AI也不会漏掉。

开发者Gabriel的描述更直观：智能体会在你休息的时间持续处理和精炼代码，等你醒来，它已经准备好了新的解决方案。

不过也不是所有人都买账。Reddit用户DangerousSetOfBewbs直接吐槽，"梦境"说白了就是"一种燃烧更多Token的新方式"。luigi3则指出，这些功能本质上是API大客户的特权，普通固定费率用户根本用不起。

对于个人开发者和小团队来说，这确实是个现实问题：功能很强，但token消耗也很猛，用不用得起是另一回事。

针对这种顾虑，Anthropic在现场同步宣布了配额调整：即日起取消Pro和Max用户在高峰时段的使用限制，Claude Code的五小时限额直接翻倍。算是在用实际动作回应"用不起"的质疑，把算力门槛往下压了一截。

三、印刷机时刻：Claude Code负责人说自己也不写代码了

Claude Code负责人鲍里斯·切尔尼(Boris Cherny)的个人经历，可能比任何功能演示都更能说明问题。他之前在Meta负责Instagram全球的代码质量，是制定规则的人。现在他在做的事，是让那套旧规则变得不再必要。

切尔尼在访谈中用了一个比喻："印刷机时刻"。15世纪印刷机让识字不再是少数人的特权，今天AI正在让写代码变成一种通用能力。

他说自己半年前还在亲手写代码，现在大部分代码都是用高阶提示词构建的。工作方式变了：不再纠结括号怎么放、逻辑流怎么绕，而是通过对话表达意图，AI来构建、测试和展示结果。他管这叫"编排(Orchestration)"。

这种转变带来的一个直接后果是：软件行业的"迁移成本"在快速归零。切尔尼坦言，当AI能以极低成本重写任何复杂系统时，你花十年构建的技术壁垒，可能被竞争对手在几天内用AI重做一遍。

在开发者日现场，Anthropic展示了客户实测数据：合作伙伴Eve通过引入Managed Agents的"顾问策略"(Consultant Strategy)，实现了5倍效率提升，原本五个人的工作量，现在一个人配合智能体就能完成。

Shopify和Mercado Libre这类拥有海量代码库的企业也已经深度接入了Claude的自主编程体系。根据披露的路线图，这两家公司有望在2026年第三季度实现90%的代码由AI自主完成。

X上的@B2Lance评论说，具备自学习能力的智能体已经不是工具了，而是员工，它们会把人从低效的重复劳动里彻底解放出来。

折髙一平(Ippei Oritaka)分享的案例显示，通过Background Agents可以实现数十个旧代码文件的并行重构。

但也有个人开发者在X上指出，Managed Agents展现出的能力对普通副业者来说已经"规格外"(Over-spec)了。

这种感受不难理解：当资深专家都能通过AI实现100%的代码产出时，留给新手练手的空间确实在被压缩。工具变强了，但不是每个人都需要那么强的工具，也不是每个人都负担得起。

这就引出了另一个问题：当AI接管了越来越多的代码编写，谁来保证这些代码是安全的？

四、被隐藏的Mythos：安全工具该不该公开

Anthropic在这次开发者日上首次展示了内部模型Mythos，一个专门用于自动化漏洞挖掘的系统。

根据现场演示，Mythos能在很短时间内定位深层逻辑漏洞，包括一些人类安全专家也难以察觉的问题。在Anthropic的设计中，Mythos充当的是智能体的"免疫系统"：在代码部署前先做一轮自动化的安全拆解。

丹妮拉在访谈中解释了为什么需要这种工具：AI编写代码的速度在急剧增长，传统的人工安全审查已经跟不上了。如果不靠Mythos这个级别的自动化检测，就没办法保证智能体在"梦境"模式下自主迭代时不会引入安全隐患。

但达里奥同时明确表示，目前没有计划向公众开放Mythos。

这在开发者社区引发了争议。反对者的逻辑很直接：如果最强的漏洞检测工具只掌握在少数大公司手里，普通开发者和开源社区在面对安全威胁时就处于天然劣势。有人在Reddit上指出，当90%的代码由AI生成，而最强的安全扫描器却不对外开放，这实际上加剧了技术上的不对等。

这是Anthropic面临的一个真实张力：一方面想让AI尽可能多地替人干活，另一方面又必须确保干出来的活是安全的，而确保安全的工具本身又不能随便放出去。

在这些技术讨论之外，丹妮拉在访谈中还提到了一些小故事：有开发者用Claude找回了损坏硬盘里的婚礼照片，有人用它记录花园里番茄的生长。这些跟80倍增长、太空算力之类的宏大叙事完全不搭，但它们也是AI实际在做的事。

五、结语：在奇点到来前，学会与代理共生

开发者日上，切尔尼给年轻人提了两点建议：第一，不要怕智能体，要像学识字一样去学怎么驱动它们；第二，如果有创业想法，现在就动手，因为未来十年初创公司的数量可能会增长100倍。

Anthropic这次展示的东西，核心变化其实就一句话：从"模型帮你写代码"到"模型帮你管一整条生产线"。Managed Agents负责分配和执行，Outcomes Loop负责验收，Dreaming负责在空闲时间复盘和优化。拼在一起，就是一套完整的"数字工人"协议。

这套东西能走多远、会不会像宣传的那么好用，现在还说不准。但有一点已经很清楚了：AI公司之间的竞争，正在从"谁的模型更聪明"转向"谁能把模型嵌入真实的工作流程"。Anthropic这次押的方向，是后者。