别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式
复旦大学与通义实验室联合提出ToolCUA训练范式,解决了Agent在GUI操作与工具调用混合空间下的路径选择难题,通过特定训练方法显著提升了任务准确率与执行效率。
今天的头条毫无悬念属于具身智能与AI Agent决策层的技术突破。从上海创智学院刷新开源纪录的τ0-WM,到复旦系团队发布的机器人原生架构,再到针对Agent混合动作空间的全新训练范式,我们正见证AI从“理解数字世界”向“掌控物理世界”跨越的关键一步。这不仅是算法层面的迭代,更是数据范式与决策逻辑的重构。
τ0-WM:最大规模预训练的开源具身世界模型来了 - 上海创智学院罗剑岚团队发布的τ0-WM,最大的震撼不在于5B的参数量,而在于其“挥金如土”的数据投入:1.78万小时真机遥操作数据。这一举动直接打破了行业长期以来“真机数据太贵,只能用于微调”的铁律。更值得关注的是其引入的Test-Time Computation(测试时计算),让机器人在行动前进行“提议-推演-评估”的三段式思考,真正实现了“三思而后行”。这意味着具身智能开始摆脱单纯的“条件反射”,转向通过“思维链”来处理长程复杂任务,这对提升真机落地的鲁棒性具有里程碑意义。
紧随其后,机器人原生世界动作模型问世!首创时空一体架构,复旦系团队出品 - 眸深智能推出的STI-WM则从架构底层展示了另一种解题思路。不同于现有的通用世界模型与VLA模型的“拼接”,他们选择了时空一体的原生融合路线。通过将空间结构、时间演化、物理一致性与执行鲁棒性统一建模,STI-WM试图从根源上解决sim2real(仿真到现实)的鸿沟。这对于开发者而言,意味着未来机器人不再需要昂贵的多模块堆叠,一个高效的“原生大脑”即可支撑感知、规划与控制的闭环,这无疑大大降低了工程化落地的门槛。
当机器人在物理世界学会“慢思考”时,虚拟世界里的AI Agent也在攻克它的决策盲区。如果说具身智能解决的是“怎么做动作”的问题,那么别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式 这项研究则解决的是“选哪种方式”的问题。复旦与通义团队发现,给Agent同时配备GUI和Tool调用能力,反而会因“路径困惑”导致性能下降。他们提出的ToolCUA范式,通过精心设计的混合轨迹合成与路径奖励机制,教会Agent在“点击按钮”和“调用API”之间做最优选择。这不仅提升了Agent在OSWorld等任务上的准确率,更重要的是,它揭示了下一代Agent训练的核心:不仅仅是能力扩展,更是多模态动作空间下的自主路由能力。
复旦大学与通义实验室联合提出ToolCUA训练范式,解决了Agent在GUI操作与工具调用混合空间下的路径选择难题,通过特定训练方法显著提升了任务准确率与执行效率。
上海创智学院与智元机器人团队发布全球最大规模开源具身世界模型τ0-WM,首次使用1.78万小时真机数据进行预训练,并引入测试时计算机制实现“慢思考”决策。
复旦系团队眸深智能发布机器人原生STI-WM时空一体世界动作模型,首创时空一体化架构以解决具身智能落地痛点,并已完成3亿元融资。
文章阐述了港大黄超教授关于AI Agent核心架构、交互范式及自进化能力的深度思考,提出应通过CLI重构软件生态以适配Agent,并探讨了Agent集群协作的边界与挑战。
文章基于亚马逊云科技王晓野的演讲,深入剖析了企业级AI Agent从Demo走向生产环境面临的四大鸿沟,并提出了包含算力、模型、数据、Harness平台及应用在内的五层落地架构。