4步出声，单卡0.24秒！Noiz AI联合港科大清华，开源音频生成大模型

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

量子位 | 公众号 QbitAI

“先来一段蝉鸣，然后吉他声切入。”

对于这样一段看似简单的文字指令，现有的音频大模型不仅

（搞错顺序或数量），而且

（生成10秒声音，往往需要等待几秒甚至十几秒）。

这成了AI音频从“玩具”走向专业工作流和实时交互的最大绊脚石。

为了解决这一行业痛点，

Noiz AI联合香港科技大学、清华大学

等机构，正式推出了支持Anything-to-Audio的极速音频生成大模型

AudioX-Turbo

AudioX-Turbo不仅仅是一个能处理多种模态输入的生成器，更是将矛头直指

通过分布匹配蒸馏和对抗蒸馏，AudioX-Turbo将原本50-200步的扩散生成过程暴减至4步

，模型前向次数骤降约25倍；

再配合全新标注的920万量级“强指令”语料，模型终于“听懂了时间戳”。

而且，推理代码、训练代码、模型权重等

论文与项目页面：https://zeyuet.github.io/AudioX-Turbo/

项目代码：https://github.com/NoizAI/AudioX-Turbo

核心突破一：用4步打败100步，单卡0.24秒出声

现有的主流音频模型，如MMAudio，Stable Audio Open，它们多依赖Diffusion（扩散）或Flow Matching，通常需要几十到上百步迭代。

AudioX-Turbo的解法是分布匹配对抗

1. 原生多模态骨干打底

全面采用原生适合多模态融合的

Multimodal Diffusion Transformer (MMDiT)

作为模型骨架，配合MAF模块从零训练了2.7B参数，确保了极高的音画同频与跨模态控制力。

2. Turbo蒸馏加速

基于Flow Matching框架，引入

分布匹配蒸馏（DMD）

将模型蒸馏至4步，同时应用CFG蒸馏去掉了CFG引入的额外NFE开销。

“简单说，就像把一幅需要涂100遍才能完成的画，提炼成只涂4遍的模板——AudioX-Turbo用蒸馏技术把这个‘模板’提炼出来了。”

△图2. 分布匹配对抗蒸馏

结果惊人，AudioX-Turbo仅需

就逼近Teacher模型100步的音质，再得益于扩散判别器，学生模型输出和真实样本的对抗训练，使少步模型在部分性能指标上反超了100步教师模型。

单张RTX 4090上，生成10秒音频仅需

（RTF仅0.02），打开了实时音频生成的想象空间。

△图3. Audiox-Turbo对比其它模型的全面评测

核心突破二：数据大换血，920万样本让模型“听懂人话”

之前很多音频模型无法精确控制，根源在于数据里的文本标签太“糊”（比如只有简单的环境音概括）。

为此，Noiz AI与港科大团队专门打造了超大规模的多模态音频数据集

4步出声，单卡0.24秒！Noiz AI联合港科大清华，开源音频生成大模型

作者gjqs

作者 gjqs

相关文章

OpenAI重返机器人赛道！四大核心岗位开招

机器人原生世界动作模型问世！首创时空一体架构，复旦系团队出品

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

You missed

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了2026-07-01

Claude Mythos让梁文锋决定融资2026-06-29

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑