4月2日,美国具身智能公司Generalist发布新一代模型GEN-1,用50万小时真实世界的人类行为数据,实现模型在多个任务中超过99%的成功率。其解决具身智能模型数据瓶颈的新范式及随之而来的模型效果,引起中国具身智能业界的广泛关注。
Generalist联合创始人、首席科学家Andy Zeng近日接受南都记者采访时透露,公司确实计划将GEN-1模型商业化。“这款模型将帮助我们测试市场,同时为未来更强大的模型奠定基础。”
公开信息显示,Andy Zeng与Generalist的首席执行官Pete Florence曾在谷歌DeepMind共事。另一位联合创始人Andrew Barry则在波士顿动力担任过资深机器人专家。三人于2024年上半年创立Generalist公司,获得英伟达、贝索斯旗下基金Bezos Expeditions等机构的投资。
直到2025年11月,这家具身智能模型公司才真正打响行业知名度。当时,Generalist推出GEN-0具身基础模型,声称首次在机器人领域验证了Scaling Law(缩放定律)的存在。
GEN-0模型受到行业关注的一项关键原因在于,它没有使用当时业内流行但昂贵且难以规模化的真机遥操作数据,而基于27万小时人类操作视频数据进行训练。这类数据无需依赖机器人本体去采集,而是利用低成本的可穿戴设备获取,因此又被称为“非本体数据”。
“如果你拥有足够高质量且多样化的真实世界数据,那么仿真数据和遥操作数据的价值就会降低。”Andy Zeng表示,“这本质上是一个成本问题。”
此次新发布的GEN-1模型在数据规模和任务成功率上更进一步。据公司介绍,GEN-1模型基于50万小时真实世界数据开展预训练。在模型预训练的基础上,执行特定的新任务前只需再使用1小时的机器人数据进行微调。
Generalist称,GEN-1模型实现了可靠性、运行速度与即兴应变能力的结合。在多个任务中,该模型的成功率超过99%,完成任务的速度比此前最先进的模型快了大概3倍,并且展现出广泛的涌现能力,能够在发生意外的情况下恢复任务执行。
“为了在非结构化环境中生存,机器人必须具备在意外情况下创造性地即兴解决问题的能力,而不是依赖预设的行为模式。”Generalist公司认为,即兴应变能力是此前机器人技术最关键的缺失。
Generalist发布了GEN-1加持下的机械臂“干活”视频片段,并与GEN-0以及另一家美国明星具身智能模型公司Physical Intelligence(Pi)的模型进行了效果对比。例如,在折叠盒子的任务中,GEN-0和Pi的π0模型使用相同的盒子,折叠耗时大约为34秒;π0.6模型在一个类似但不同的盒子上,耗时也大致相同。相比之下,GEN-1模型的速度提升了 2.8倍,能够在约12秒内完成盒子折叠。
GEN-0(左)和GEN-1(右)模型折叠盒子的速度对比。
而在即兴应变能力方面,Generalist以一个长时序的汽车套件组装示例介绍,如果一个垫圈被碰得太远,以至于无法被正常夹持,机器人可以选择把它放回原位再重新抓取,或者决定用另一只手配合完成双手抓取。Generalist称,对于那些体积大、且容易变形的物体,如果它们处于异常状态,模型也能够自行找到恢复的方法。
但Generalist也承认GEN-1模型的局限性:虽然一些任务中的成功率超过99%,但并非所有尝试过的任务都能达到如此高的成功率。此外,某些任务需要更高的成功率或速度,才能在实际应用中发挥作用。
接受《福布斯》杂志采访时,Pete Florence将GEN-1模型的表现视为“GPT-3时刻”。
业内一直期盼着“ChatGPT时刻”的来临,但对其何时到来莫衷一是。Andy Zeng向南都记者表示,Generalist正专注于通过下一代模型,不断扩大机器人学习的规模,把这条技术路线往更前沿推进。
“我不知道(ChatGPT时刻)何时会到来,但我知道我们的模型一直带来惊喜。例如,GEN-1 所展现出的即兴智能就是一个令人惊喜的表现。”Andy Zeng透露,Generalist将继续扩大模型规模,并观察会涌现出哪些新的能力。
采写:南都N视频记者 杨柳