具身智能大模型爆发，AI 代理学会三思后行

2026-05-31

✍️ 主编按语

具身智能与Agent决策：迈向物理世界的深度进化

今天的头条毫无悬念属于具身智能与AI Agent决策层的技术突破。从上海创智学院刷新开源纪录的τ0-WM，到复旦系团队发布的机器人原生架构，再到针对Agent混合动作空间的全新训练范式，我们正见证AI从“理解数字世界”向“掌控物理世界”跨越的关键一步。这不仅是算法层面的迭代，更是数据范式与决策逻辑的重构。

具身智能：数据金字塔的颠覆与“慢思考”的觉醒

τ0-WM：最大规模预训练的开源具身世界模型来了 - 上海创智学院罗剑岚团队发布的τ0-WM，最大的震撼不在于5B的参数量，而在于其“挥金如土”的数据投入：1.78万小时真机遥操作数据。这一举动直接打破了行业长期以来“真机数据太贵，只能用于微调”的铁律。更值得关注的是其引入的Test-Time Computation（测试时计算），让机器人在行动前进行“提议-推演-评估”的三段式思考，真正实现了“三思而后行”。这意味着具身智能开始摆脱单纯的“条件反射”，转向通过“思维链”来处理长程复杂任务，这对提升真机落地的鲁棒性具有里程碑意义。

紧随其后，机器人原生世界动作模型问世！首创时空一体架构，复旦系团队出品 - 眸深智能推出的STI-WM则从架构底层展示了另一种解题思路。不同于现有的通用世界模型与VLA模型的“拼接”，他们选择了时空一体的原生融合路线。通过将空间结构、时间演化、物理一致性与执行鲁棒性统一建模，STI-WM试图从根源上解决sim2real（仿真到现实）的鸿沟。这对于开发者而言，意味着未来机器人不再需要昂贵的多模块堆叠，一个高效的“原生大脑”即可支撑感知、规划与控制的闭环，这无疑大大降低了工程化落地的门槛。

Agent决策：解决“选择困难症”的全新范式

当机器人在物理世界学会“慢思考”时，虚拟世界里的AI Agent也在攻克它的决策盲区。如果说具身智能解决的是“怎么做动作”的问题，那么别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式这项研究则解决的是“选哪种方式”的问题。复旦与通义团队发现，给Agent同时配备GUI和Tool调用能力，反而会因“路径困惑”导致性能下降。他们提出的ToolCUA范式，通过精心设计的混合轨迹合成与路径奖励机制，教会Agent在“点击按钮”和“调用API”之间做最优选择。这不仅提升了Agent在OSWorld等任务上的准确率，更重要的是，它揭示了下一代Agent训练的核心：不仅仅是能力扩展，更是多模态动作空间下的自主路由能力。