北大&港中文VGGT-Edit炸场：5秒搞定3D场景，原生编辑提速120倍

2026-05-27

✍️ 主编按语

AI/ML

5秒完成3D场景编辑，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了

长期以来，3D重建技术从NeRF演进到3D Gaussian Splatting，虽然让我们“看见”了世界的速度越来越快，但在“修改”世界上却始终步履维艰。现有的解决方案大多受困于“2D思维”——拆解图像、逐张修图、再强行拼合，导致多视角下出现物体闪烁、重影甚至几何漂移，这对追求空间一致性的AR/VR和机器人应用来说是致命伤。

VGGT-Edit的出现标志着行业正在突破这一瓶颈。其核心价值在于彻底摒弃了迂回的2D编辑路径，构建了真正的原生3D编辑框架。它利用“残差场预测”机制，让模型只需关注局部的变化量，而非重建整个世界。这意味着当你移动一张椅子时，背景墙壁的几何结构依然稳如泰山。这种思路的转变，不仅解决了多视角一致性的痛点，更将推理速度提升至5秒左右，实现了最高120倍的惊人加速。

更令人兴奋的是其对“空间智能”的深度理解。通过深度同步文本注入和专门的编辑头，模型不再是盲目地执行像素替换，而是真正理解文本指令与3D空间坐标的映射关系。配合团队构建的10万级DeltaScene数据集，VGGT-Edit展现出了极强的泛化能力，即便面对训练中未见过的复杂旋转指令，也能精准完成。这不仅仅是工具的升级，更是向“可交互的3D世界”迈出了关键一步。