奔跑的高达

具身智能大模型爆发,AI 代理学会三思后行

2026-05-31

✍️ 主编按语

具身智能与Agent决策:迈向物理世界的深度进化

今天的头条毫无悬念属于具身智能与AI Agent决策层的技术突破。从上海创智学院刷新开源纪录的τ0-WM,到复旦系团队发布的机器人原生架构,再到针对Agent混合动作空间的全新训练范式,我们正见证AI从“理解数字世界”向“掌控物理世界”跨越的关键一步。这不仅是算法层面的迭代,更是数据范式与决策逻辑的重构。

具身智能:数据金字塔的颠覆与“慢思考”的觉醒

τ0-WM:最大规模预训练的开源具身世界模型来了 - 上海创智学院罗剑岚团队发布的τ0-WM,最大的震撼不在于5B的参数量,而在于其“挥金如土”的数据投入:1.78万小时真机遥操作数据。这一举动直接打破了行业长期以来“真机数据太贵,只能用于微调”的铁律。更值得关注的是其引入的Test-Time Computation(测试时计算),让机器人在行动前进行“提议-推演-评估”的三段式思考,真正实现了“三思而后行”。这意味着具身智能开始摆脱单纯的“条件反射”,转向通过“思维链”来处理长程复杂任务,这对提升真机落地的鲁棒性具有里程碑意义。

紧随其后,机器人原生世界动作模型问世!首创时空一体架构,复旦系团队出品 - 眸深智能推出的STI-WM则从架构底层展示了另一种解题思路。不同于现有的通用世界模型与VLA模型的“拼接”,他们选择了时空一体的原生融合路线。通过将空间结构、时间演化、物理一致性与执行鲁棒性统一建模,STI-WM试图从根源上解决sim2real(仿真到现实)的鸿沟。这对于开发者而言,意味着未来机器人不再需要昂贵的多模块堆叠,一个高效的“原生大脑”即可支撑感知、规划与控制的闭环,这无疑大大降低了工程化落地的门槛。

Agent决策:解决“选择困难症”的全新范式

当机器人在物理世界学会“慢思考”时,虚拟世界里的AI Agent也在攻克它的决策盲区。如果说具身智能解决的是“怎么做动作”的问题,那么别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式 这项研究则解决的是“选哪种方式”的问题。复旦与通义团队发现,给Agent同时配备GUI和Tool调用能力,反而会因“路径困惑”导致性能下降。他们提出的ToolCUA范式,通过精心设计的混合轨迹合成与路径奖励机制,教会Agent在“点击按钮”和“调用API”之间做最优选择。这不仅提升了Agent在OSWorld等任务上的准确率,更重要的是,它揭示了下一代Agent训练的核心:不仅仅是能力扩展,更是多模态动作空间下的自主路由能力。

🔥 热门文章 (5 篇)

快速浏览