
\n

\n
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
字节开源统一框架Bernini:给DiT配个“大模型军师”,AI视频编辑先理解再动手
AI视频编辑先理解再动手
量子位 | 公众号 QbitAI
大家都懂,视频生成这件事,最让创作者头疼的,不一定是画面不够清晰。
!!!(扎心.jpg)
想把晴天改成雪天,它可能只会往画面上撒雪花;想把一段动画植入商场LED大屏,它可能边界乱飘、透视不稳。
于是乎,问题来了:AI视频生成,能不能先理解创作者到底想改什么,再动手生成?
反手给出一个行业新解法——
开源面向视频生成与视频编辑的统一框架:
主打一个先理解再生成~
Bernini的思路很直接,让多模态大模型先负责语义理解与规划,再交给diffusion模型完成高质量视觉渲染。
在能力上,Bernini覆盖了
等多种任务,重点体现的就是两个字:「可控」。
比如改变整体视觉风格时,不只是把单帧画得好看,还能稳住前后帧的一致性,主打一个效果超级稳:
这下好了,AI视频生成也能从听prompt干活,往先理解、再动手再进一步了~
对了,目前,Bernini的推理代码和权重已经开放!!(欢呼.jpg)
一条指令改视频,Bernini轻松拿捏「可控编辑」!
如果说过去很多视频生成模型更像按提示词出片,那Bernini想解决的,是另一个更实际的问题——
生成之后,怎么继续改?
我们日常碰到的大多数调整需求听起来都很easy,但对视频模型来说并不简单!!!
因为视频编辑不是改一张图,而是在一段连续画面里,既要听懂指令,又要保住主体、结构、镜头和运动关系。
稍微处理不好,就会出现主体变形、背景漂移、动作断裂、帧间闪烁等问题。
而Bernini的核心思路,正是把这个过程拆得更清楚。
我们可以把Bernini理解成一个AI视频片场里的「导演+后期团队」。
前面负责导演的,是一个叫
MLLM-based planner
的多模态大模型规划器。
,也会一起理解源视频、参考图片、参考视频这些素材,判断目标画面应该变成什么样。
等这一步想清楚后,再交给diffusion模型
DiT-based renderer
,把前面规划好的语义目标,真正变成连续、稳定、高质量的视频画面。
所以Bernini框架的妙处,就在于分工足够清楚:
多模态大模型负责想明白,Diffusion Transformer负责生成出来。
从文本到视频生成,到视频编辑,再到基于图像和视频参考的复杂控制生成都全部梭哈!
△Bernini在统一框架内支持多种视频生成任务
这套巧妙分工,也让Bernini在视频可控编辑上,展现出了一批相当直观的视频编辑能力。
一条指令改变天气、季节、材质和风格
比如同一段城市航拍视频,输入指令后,可以从晴天切到雾天、雨天、雪天。
最关键是,它处理的并不只是天上多几片雪、画面加一层滤镜,而是会连带调整天空、光照、路面、建筑表面和整体环境氛围,让这场天气变化看起来像真的发生在原场景里: