奔跑的高达

美团数字人开源,SaaS-Bench泼冷水

2026-05-25

✍️ 主编按语

今日技术圈可谓是「冰火两重天」。美团祭出 LongCat 1.5 将数字人视频生成推向商用级落地,而 SaaS-Bench 的残酷数据则无情撕碎了大模型全自动办公的幻想;与此同时,蚂蚁灵波在机器人世界模型上的 RSS 顶会论文,为我们指明了具身智能突破直觉的新路径。从虚拟人的「像」到机器人的「懂」,再到智能体的「用」,技术正在经历一场从秀肌肉到干脏活的痛苦蜕变。

商业级 AI 落地

从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源 - 美团此次开源不仅是一次模型迭代,更是对数字人行业「重效果、轻效率」顽疾的有力回击。LongCat 1.5 最大的亮点在于通过 DMD 蒸馏技术将推理步数压缩至 8 步,效率提升 15 倍,这意味着生成 10 秒视频仅需 1 分钟,真正让商业量产成为可能。技术上,团队升级至 Whisper 音频编码器并引入逐帧级 GRPO 偏好对齐,解决了长视频中的身份漂移和多人互动的音画歧义问题。对开发者而言,这标志着数字人视频生成终于从「彩排室」走向了「真实舞台」,一个高质量、可私有化部署的数字人基座已然出现。

智能体的现实困境

Claude 通过率不到4%,SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想 - 如果说美团展示了 AI 的上限,那 SaaS-Bench 则无情揭露了 AI 的下限。在这个包含 23 个真实 SaaS 系统、106 个长流程任务的严苛评测中,即便是 Claude Opus 4.7 的端到端通过率也仅为 3.8%。这组数据的核心价值在于揭示了 Agent 的「结构性失败」:长程任务中的状态遗忘、一步错步步错的连锁反应,以及缺乏自我反思的闭环验证。这对行业是一剂清醒剂——当前的 Agent 框架在处理真实世界的复杂逻辑时仍显稚嫩。这或许也预示着,未来软件形态的重构(为 Agent 设计界面)可能比单纯增大模型参数更为紧迫。

具身智能的前沿探索

蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收,让机器人边推演、边行动 - 在智能体遭遇软件逻辑瓶颈的同时,物理世界的智能探索却迎来了高光时刻。蚂蚁灵波与港科大合作的这篇 RSS 论文,提出了「因果世界建模」的新范式。不同于简单的动作模仿,LingBot-VA 能够预测行动后的环境变化,具备类似人类「边观察、边推演、边行动」的能力。其采用的 Mixture-of-Transformers 架构和闭环推演机制,大幅提升了机器人在长时序任务中的成功率。这一成果不仅验证了世界模型在具身智能中的核心地位,也暗示了未来 AI 的突破方向:从处理静态的文本,转向理解和干预动态变化的物理世界。

主编观察

透过这三条资讯,我们能清晰地看到 2026 年 AI 技术发展的某种「分流」。在数字人等生成领域,技术已通过蒸馏和数据工程逼近商用临界点;但在需要深度逻辑推理的软件自动化领域,大模型仍面临「长程规划」的天花板;而在物理世界,因果推理的引入正在赋予机器人真正的智能。与其追求全能的 AGI,不如在特定领域构建具备闭环验证能力的专用 Agent,或许才是当下最务实的路径。

🔥 热门文章 (6 篇)

AI/ML美团技术团队9.0

从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

美团正式开源 LongCat-Video-Avatar 1.5 数字人视频模型,通过音频编码器升级、高质量数据体系及 GRPO 偏好对齐,实现了在唇形同步、物理合理性及多人互动上的全面跃升,并采用 DMD 蒸馏技术将推理效率提升约 15 倍。