< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

4步出声,单卡0.24秒!Noiz AI联合港科大清华,开源音频生成大模型

量子位 | 公众号 QbitAI

“先来一段蝉鸣,然后吉他声切入。”

对于这样一段看似简单的文字指令,现有的音频大模型不仅

(搞错顺序或数量),而且

(生成10秒声音,往往需要等待几秒甚至十几秒)。

这成了AI音频从“玩具”走向专业工作流和实时交互的最大绊脚石。

为了解决这一行业痛点,

Noiz AI联合香港科技大学、清华大学

等机构,正式推出了支持Anything-to-Audio的极速音频生成大模型

AudioX-Turbo

AudioX-Turbo不仅仅是一个能处理多种模态输入的生成器,更是将矛头直指

通过分布匹配蒸馏和对抗蒸馏,AudioX-Turbo将原本50-200步的扩散生成过程暴减至4步

,模型前向次数骤降约25倍;

再配合全新标注的920万量级“强指令”语料,模型终于“听懂了时间戳”。

而且,推理代码、训练代码、模型权重等

论文与项目页面:https://zeyuet.github.io/AudioX-Turbo/

项目代码:https://github.com/NoizAI/AudioX-Turbo

核心突破一:用4步打败100步,单卡0.24秒出声

现有的主流音频模型,如MMAudio,Stable Audio Open,它们多依赖Diffusion(扩散)或Flow Matching,通常需要几十到上百步迭代。

AudioX-Turbo的解法是分布匹配对抗

1. 原生多模态骨干打底

全面采用原生适合多模态融合的

Multimodal Diffusion Transformer (MMDiT)

作为模型骨架,配合MAF模块从零训练了2.7B参数,确保了极高的音画同频与跨模态控制力。

2. Turbo蒸馏加速

基于Flow Matching框架,引入

分布匹配蒸馏(DMD)

将模型蒸馏至4步,同时应用CFG蒸馏去掉了CFG引入的额外NFE开销。

“简单说,就像把一幅需要涂100遍才能完成的画,提炼成只涂4遍的模板——AudioX-Turbo用蒸馏技术把这个‘模板’提炼出来了。”

△图2. 分布匹配对抗蒸馏

结果惊人,AudioX-Turbo仅需

就逼近Teacher模型100步的音质,再得益于扩散判别器,学生模型输出和真实样本的对抗训练,使少步模型在部分性能指标上反超了100步教师模型。

单张RTX 4090上,生成10秒音频仅需

(RTF仅0.02),打开了实时音频生成的想象空间。

△图3. Audiox-Turbo对比其它模型的全面评测

核心突破二:数据大换血,920万样本让模型“听懂人话”

之前很多音频模型无法精确控制,根源在于数据里的文本标签太“糊”(比如只有简单的环境音概括)。

为此,Noiz AI与港科大团队专门打造了超大规模的多模态音频数据集

作者 gjqs