\n

\n

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

字节开源统一框架Bernini:给DiT配个“大模型军师”,AI视频编辑先理解再动手

AI视频编辑先理解再动手

量子位 | 公众号 QbitAI

大家都懂,视频生成这件事,最让创作者头疼的,不一定是画面不够清晰。

!!!(扎心.jpg)

想把晴天改成雪天,它可能只会往画面上撒雪花;想把一段动画植入商场LED大屏,它可能边界乱飘、透视不稳。

于是乎,问题来了:AI视频生成,能不能先理解创作者到底想改什么,再动手生成?

反手给出一个行业新解法——

开源面向视频生成与视频编辑的统一框架:

主打一个先理解再生成~

Bernini的思路很直接,让多模态大模型先负责语义理解与规划,再交给diffusion模型完成高质量视觉渲染。

在能力上,Bernini覆盖了

等多种任务,重点体现的就是两个字:「可控」。

比如改变整体视觉风格时,不只是把单帧画得好看,还能稳住前后帧的一致性,主打一个效果超级稳:

这下好了,AI视频生成也能从听prompt干活,往先理解、再动手再进一步了~

对了,目前,Bernini的推理代码和权重已经开放!!(欢呼.jpg)

一条指令改视频,Bernini轻松拿捏「可控编辑」!

如果说过去很多视频生成模型更像按提示词出片,那Bernini想解决的,是另一个更实际的问题——

生成之后,怎么继续改?

我们日常碰到的大多数调整需求听起来都很easy,但对视频模型来说并不简单!!!

因为视频编辑不是改一张图,而是在一段连续画面里,既要听懂指令,又要保住主体、结构、镜头和运动关系。

稍微处理不好,就会出现主体变形、背景漂移、动作断裂、帧间闪烁等问题。

而Bernini的核心思路,正是把这个过程拆得更清楚。

我们可以把Bernini理解成一个AI视频片场里的「导演+后期团队」。

前面负责导演的,是一个叫

MLLM-based planner

的多模态大模型规划器。

,也会一起理解源视频、参考图片、参考视频这些素材,判断目标画面应该变成什么样。

等这一步想清楚后,再交给diffusion模型

DiT-based renderer

,把前面规划好的语义目标,真正变成连续、稳定、高质量的视频画面。

所以Bernini框架的妙处,就在于分工足够清楚:

多模态大模型负责想明白,Diffusion Transformer负责生成出来。

从文本到视频生成,到视频编辑,再到基于图像和视频参考的复杂控制生成都全部梭哈!

△Bernini在统一框架内支持多种视频生成任务

这套巧妙分工,也让Bernini在视频可控编辑上,展现出了一批相当直观的视频编辑能力。

一条指令改变天气、季节、材质和风格

比如同一段城市航拍视频,输入指令后,可以从晴天切到雾天、雨天、雪天。

最关键是,它处理的并不只是天上多几片雪、画面加一层滤镜,而是会连带调整天空、光照、路面、建筑表面和整体环境氛围,让这场天气变化看起来像真的发生在原场景里:

作者 gjqs