奔跑的高达

北大&港中文VGGT-Edit炸场:5秒搞定3D场景,原生编辑提速120倍

2026-05-27

✍️ 主编按语

AI/ML

5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了

长期以来,3D重建技术从NeRF演进到3D Gaussian Splatting,虽然让我们“看见”了世界的速度越来越快,但在“修改”世界上却始终步履维艰。现有的解决方案大多受困于“2D思维”——拆解图像、逐张修图、再强行拼合,导致多视角下出现物体闪烁、重影甚至几何漂移,这对追求空间一致性的AR/VR和机器人应用来说是致命伤。

VGGT-Edit的出现标志着行业正在突破这一瓶颈。其核心价值在于彻底摒弃了迂回的2D编辑路径,构建了真正的原生3D编辑框架。它利用“残差场预测”机制,让模型只需关注局部的变化量,而非重建整个世界。这意味着当你移动一张椅子时,背景墙壁的几何结构依然稳如泰山。这种思路的转变,不仅解决了多视角一致性的痛点,更将推理速度提升至5秒左右,实现了最高120倍的惊人加速。

更令人兴奋的是其对“空间智能”的深度理解。通过深度同步文本注入和专门的编辑头,模型不再是盲目地执行像素替换,而是真正理解文本指令与3D空间坐标的映射关系。配合团队构建的10万级DeltaScene数据集,VGGT-Edit展现出了极强的泛化能力,即便面对训练中未见过的复杂旋转指令,也能精准完成。这不仅仅是工具的升级,更是向“可交互的3D世界”迈出了关键一步。

🔥 热门文章 (6 篇)