入选ECCV 2026!清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习
清华大学入选ECCV 2026的Spatial-TTT模型提出一种流式空间记忆机制,通过边看边更新参数的方式,使2B模型在长视频空间理解任务上击败Gemini-3-pro等闭源模型。
多模态大模型正试图走出“图灵测试”的舒适区,迈向更具挑战的物理世界。今日焦点聚焦于清华大学入选ECCV 2026的重磅工作Spatial-TTT,它以仅2B的参数规模,在长达120分钟的流式视频处理中击败了GPT-5和Gemini-3-pro。这项研究不仅刷新了空间智能的基准,更提出了“让模型在推理中更新记忆”的全新范式,为机器人、自动驾驶等长期运行的Agent系统指明了突破“失忆”困境的技术路径。
入选ECCV 2026!清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习
面对长达120分钟的连续视频流,现有的大模型往往陷入“上下文膨胀”或“关键信息遗忘”的泥潭。清华大学的Spatial-TTT另辟蹊径,利用TTT(Test-Time-Training)技术,让模型参数在推理过程中充当动态记忆体。这不仅仅是把窗口拉长,而是模拟人类“边看边记”的认知过程。通过混合架构设计,它在保留语义理解能力的同时,实现了对3D空间证据的增量式更新。对于开发者和行业而言,这意味着未来的AI Agent将不再需要依赖昂贵的全量历史数据检索,而是能够像生物大脑一样,在流式感知中实时维护一个低成本、可进化的“世界状态”。这无疑是通向具身智能高级阶段的关键一块拼图。
Spatial-TTT的胜利不仅是模型参数的胜利,更是技术路线的胜利。长期以来,空间智能的解决思路大多集中在“看得更清”(引入深度信息)或“看得更全”(多视角输入),却忽略了真实世界的动态本质。清华团队敏锐地抓住了“记忆”这一核心,通过快速权重机制,将原本孤立的视觉Token转化为具有时空连续性的状态。
这种转变对行业的影响是深远的。对于自动驾驶或服务机器人来说,它们面对的不是一道道独立的视觉考题,而是一段绵延不绝的经历。Spatial-TTT证明,只有当模型学会抛弃无效帧、在参数中沉淀空间拓扑关系时,它才算真正“理解”了环境。在这个层面上,Spatial-TTT不仅是一个更聪明的模型,更是一个具备“生存智慧”的智能雏形。
清华大学入选ECCV 2026的Spatial-TTT模型提出一种流式空间记忆机制,通过边看边更新参数的方式,使2B模型在长视频空间理解任务上击败Gemini-3-pro等闭源模型。
文章从评委视角出发,分享了赢得黑客松的关键策略,强调了从问题出发、控制项目范围以及打磨演示的重要性。
本文介绍了JetBrains TeamCity的AWS Image Builder插件,旨在通过自动化AMI构建和更新流程,解决云构建代理的维护负担和仓库克隆效率问题。
ElevenLabs宣布获得加州税收抵免奖励,将在该州投资并招聘173名高薪员工以扩大业务版图,同时承诺与政府在公共服务无障碍化和AI安全领域深化合作。