5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了
北大、港中文及上海AI Lab联合推出VGGT-Edit,通过原生3D残差场预测机制解决3D场景编辑难题,实现单次编辑5秒完成,最高达120倍加速。
5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了
长期以来,3D重建技术从NeRF演进到3D Gaussian Splatting,虽然让我们“看见”了世界的速度越来越快,但在“修改”世界上却始终步履维艰。现有的解决方案大多受困于“2D思维”——拆解图像、逐张修图、再强行拼合,导致多视角下出现物体闪烁、重影甚至几何漂移,这对追求空间一致性的AR/VR和机器人应用来说是致命伤。
VGGT-Edit的出现标志着行业正在突破这一瓶颈。其核心价值在于彻底摒弃了迂回的2D编辑路径,构建了真正的原生3D编辑框架。它利用“残差场预测”机制,让模型只需关注局部的变化量,而非重建整个世界。这意味着当你移动一张椅子时,背景墙壁的几何结构依然稳如泰山。这种思路的转变,不仅解决了多视角一致性的痛点,更将推理速度提升至5秒左右,实现了最高120倍的惊人加速。
更令人兴奋的是其对“空间智能”的深度理解。通过深度同步文本注入和专门的编辑头,模型不再是盲目地执行像素替换,而是真正理解文本指令与3D空间坐标的映射关系。配合团队构建的10万级DeltaScene数据集,VGGT-Edit展现出了极强的泛化能力,即便面对训练中未见过的复杂旋转指令,也能精准完成。这不仅仅是工具的升级,更是向“可交互的3D世界”迈出了关键一步。
北大、港中文及上海AI Lab联合推出VGGT-Edit,通过原生3D残差场预测机制解决3D场景编辑难题,实现单次编辑5秒完成,最高达120倍加速。
DeepSeek研究人员陈德里开发出一种自动研究Skill,辅助完成了99%的论文撰写工作,展示了AI Agent在科研领域的巨大应用潜力。
OpenAI员工分享了Codex“自我蒸馏”提示词,通过分析用户历史工作流自动生成可复用工具,极大提升了AI自动化办公能力。
本教程详细介绍了如何使用 TensorFlow 和 PyCharm 构建实时目标检测应用,并将其部署到 Reachy Mini 机器人上以实现物体跟踪。
文章深入探讨了Agent时代商业逻辑从“流量为王”向“信任逻辑”的转变,解析了智能体生态重构商业决策权及AI支付作为新基建的关键作用。