奔跑的高达

单卡0.24秒生成音频,AudioX-Turbo极致加速

2026-06-15

✍️ 主编按语

AI 音频生成的「实时时刻」

AI 音频领域迎来了足以载入史册的突破时刻。Noiz AI 联合港科大与清华团队推出了 AudioX-Turbo,通过极致的蒸馏技术将多步扩散压缩至 4 步,配合 920 万级强指令数据集,不仅实现了单卡 0.24 秒的极速推理,更让模型第一次真正「听懂」了精确的时间戳指令。这标志着音频生成模型正式从缓慢的「生成器」向实时可控的「乐器」迈进。

AI 突破

AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation

这项研究不仅是速度的胜利,更是可控性的质变。过去,音频生成模型往往面临两难抉择:要么为了高质量进行几十上百步的迭代导致延迟极高,要么为了速度牺牲音质。AudioX-Turbo 利用分布匹配对抗蒸馏(DMD)技术,像提取精华一样将原本 50-200 步的生成过程提炼为 4 步,在单张 RTX 4090 上实现了 0.24 秒生成 10 秒音频的惊人效率(RTF 0.02)。这意味着 AI 音频生成终于突破了实时交互的门槛。

但比速度更让我印象深刻的,是它在「理解力」上的跃升。长期以来,模型无法精准响应如「先蝉鸣后吉他」这类包含时间顺序的指令。团队构建了包含 920 万样本的 IF-caps-Pro 数据集,利用大模型级联标注技术,给数据打上了精确到秒的时间戳剧本。这种「数据层面的工程美学」直接让模型在 T2A-bench 测试中实现了对基线方法的碾压。对于开发者和创作者而言,这意味着未来的游戏引擎、互动剧甚至直播背景音,都可以像调用 API 一样实时生成且精准可控,AI 音频终于要走出玩具阶段,步入专业工作流的核心地带了。

🔥 热门文章 (8 篇)

云计算量子位8.0

Agent时代,华为云开始重新造地基了

文章详细介绍了华为云在INSPIRE大会上发布的全套Agentic基础设施及行业解决方案,旨在解决Agent应用落地中的算力、记忆、调度与安全等核心卡点。

快速浏览

Spring Blog6.0

Spring Tools 5.2.0 released

Spring Tools 5.2.0 版本发布,新增了对 Claude Code 的实验性插件支持,增强了与 GitHub Copilot 的集成,并改进了对 Spring AI 项目的索引与验证功能。

量子位6.0

宇树机器人要登珠峰了!

文章报道了宇树机器人已成功登顶钦博拉索山,并计划挑战珠峰,展示了机器人的运动性能与环境适应性。