清华新模型登顶ECCV，2B参数狂屠Gemini空间智能

✍️ 主编按语

多模态大模型正试图走出“图灵测试”的舒适区，迈向更具挑战的物理世界。今日焦点聚焦于清华大学入选ECCV 2026的重磅工作Spatial-TTT，它以仅2B的参数规模，在长达120分钟的流式视频处理中击败了GPT-5和Gemini-3-pro。这项研究不仅刷新了空间智能的基准，更提出了“让模型在推理中更新记忆”的全新范式，为机器人、自动驾驶等长期运行的Agent系统指明了突破“失忆”困境的技术路径。

AI 突破

入选ECCV 2026！清华开源空间模型打败Gemini：真正的空间智能是在世界变化中持续学习

面对长达120分钟的连续视频流，现有的大模型往往陷入“上下文膨胀”或“关键信息遗忘”的泥潭。清华大学的Spatial-TTT另辟蹊径，利用TTT（Test-Time-Training）技术，让模型参数在推理过程中充当动态记忆体。这不仅仅是把窗口拉长，而是模拟人类“边看边记”的认知过程。通过混合架构设计，它在保留语义理解能力的同时，实现了对3D空间证据的增量式更新。对于开发者和行业而言，这意味着未来的AI Agent将不再需要依赖昂贵的全量历史数据检索，而是能够像生物大脑一样，在流式感知中实时维护一个低成本、可进化的“世界状态”。这无疑是通向具身智能高级阶段的关键一块拼图。

深度观察：从“处理视频”到“记忆空间”的范式转移

Spatial-TTT的胜利不仅是模型参数的胜利，更是技术路线的胜利。长期以来，空间智能的解决思路大多集中在“看得更清”（引入深度信息）或“看得更全”（多视角输入），却忽略了真实世界的动态本质。清华团队敏锐地抓住了“记忆”这一核心，通过快速权重机制，将原本孤立的视觉Token转化为具有时空连续性的状态。

这种转变对行业的影响是深远的。对于自动驾驶或服务机器人来说，它们面对的不是一道道独立的视觉考题，而是一段绵延不绝的经历。Spatial-TTT证明，只有当模型学会抛弃无效帧、在参数中沉淀空间拓扑关系时，它才算真正“理解”了环境。在这个层面上，Spatial-TTT不仅是一个更聪明的模型，更是一个具备“生存智慧”的智能雏形。