美团数字人开源，SaaS-Bench泼冷水

2026-05-25

✍️ 主编按语

今日技术圈可谓是「冰火两重天」。美团祭出 LongCat 1.5 将数字人视频生成推向商用级落地，而 SaaS-Bench 的残酷数据则无情撕碎了大模型全自动办公的幻想；与此同时，蚂蚁灵波在机器人世界模型上的 RSS 顶会论文，为我们指明了具身智能突破直觉的新路径。从虚拟人的「像」到机器人的「懂」，再到智能体的「用」，技术正在经历一场从秀肌肉到干脏活的痛苦蜕变。

商业级 AI 落地

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源 - 美团此次开源不仅是一次模型迭代，更是对数字人行业「重效果、轻效率」顽疾的有力回击。LongCat 1.5 最大的亮点在于通过 DMD 蒸馏技术将推理步数压缩至 8 步，效率提升 15 倍，这意味着生成 10 秒视频仅需 1 分钟，真正让商业量产成为可能。技术上，团队升级至 Whisper 音频编码器并引入逐帧级 GRPO 偏好对齐，解决了长视频中的身份漂移和多人互动的音画歧义问题。对开发者而言，这标志着数字人视频生成终于从「彩排室」走向了「真实舞台」，一个高质量、可私有化部署的数字人基座已然出现。

智能体的现实困境

Claude 通过率不到4%，SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想 - 如果说美团展示了 AI 的上限，那 SaaS-Bench 则无情揭露了 AI 的下限。在这个包含 23 个真实 SaaS 系统、106 个长流程任务的严苛评测中，即便是 Claude Opus 4.7 的端到端通过率也仅为 3.8%。这组数据的核心价值在于揭示了 Agent 的「结构性失败」：长程任务中的状态遗忘、一步错步步错的连锁反应，以及缺乏自我反思的闭环验证。这对行业是一剂清醒剂——当前的 Agent 框架在处理真实世界的复杂逻辑时仍显稚嫩。这或许也预示着，未来软件形态的重构（为 Agent 设计界面）可能比单纯增大模型参数更为紧迫。

具身智能的前沿探索

蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收，让机器人边推演、边行动 - 在智能体遭遇软件逻辑瓶颈的同时，物理世界的智能探索却迎来了高光时刻。蚂蚁灵波与港科大合作的这篇 RSS 论文，提出了「因果世界建模」的新范式。不同于简单的动作模仿，LingBot-VA 能够预测行动后的环境变化，具备类似人类「边观察、边推演、边行动」的能力。其采用的 Mixture-of-Transformers 架构和闭环推演机制，大幅提升了机器人在长时序任务中的成功率。这一成果不仅验证了世界模型在具身智能中的核心地位，也暗示了未来 AI 的突破方向：从处理静态的文本，转向理解和干预动态变化的物理世界。

主编观察

透过这三条资讯，我们能清晰地看到 2026 年 AI 技术发展的某种「分流」。在数字人等生成领域，技术已通过蒸馏和数据工程逼近商用临界点；但在需要深度逻辑推理的软件自动化领域，大模型仍面临「长程规划」的天花板；而在物理世界，因果推理的引入正在赋予机器人真正的智能。与其追求全能的 AGI，不如在特定领域构建具备闭环验证能力的专用 Agent，或许才是当下最务实的路径。