字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

AI视频编辑先理解再动手

量子位 | 公众号 QbitAI

大家都懂，视频生成这件事，最让创作者头疼的，不一定是画面不够清晰。

！！！（扎心.jpg)

想把晴天改成雪天，它可能只会往画面上撒雪花；想把一段动画植入商场LED大屏，它可能边界乱飘、透视不稳。

于是乎，问题来了：AI视频生成，能不能先理解创作者到底想改什么，再动手生成？

反手给出一个行业新解法——

开源面向视频生成与视频编辑的统一框架：

主打一个先理解再生成～

Bernini的思路很直接，让多模态大模型先负责语义理解与规划，再交给diffusion模型完成高质量视觉渲染。

在能力上，Bernini覆盖了

等多种任务，重点体现的就是两个字：「可控」。

比如改变整体视觉风格时，不只是把单帧画得好看，还能稳住前后帧的一致性，主打一个效果超级稳：

这下好了，AI视频生成也能从听prompt干活，往先理解、再动手再进一步了～

对了，目前，Bernini的推理代码和权重已经开放！！（欢呼.jpg)

一条指令改视频，Bernini轻松拿捏「可控编辑」！

如果说过去很多视频生成模型更像按提示词出片，那Bernini想解决的，是另一个更实际的问题——

生成之后，怎么继续改？

我们日常碰到的大多数调整需求听起来都很easy，但对视频模型来说并不简单！！！

因为视频编辑不是改一张图，而是在一段连续画面里，既要听懂指令，又要保住主体、结构、镜头和运动关系。

稍微处理不好，就会出现主体变形、背景漂移、动作断裂、帧间闪烁等问题。

而Bernini的核心思路，正是把这个过程拆得更清楚。

我们可以把Bernini理解成一个AI视频片场里的「导演+后期团队」。

前面负责导演的，是一个叫

MLLM-based planner

的多模态大模型规划器。

，也会一起理解源视频、参考图片、参考视频这些素材，判断目标画面应该变成什么样。

等这一步想清楚后，再交给diffusion模型

DiT-based renderer

，把前面规划好的语义目标，真正变成连续、稳定、高质量的视频画面。

所以Bernini框架的妙处，就在于分工足够清楚：

多模态大模型负责想明白，Diffusion Transformer负责生成出来。

从文本到视频生成，到视频编辑，再到基于图像和视频参考的复杂控制生成都全部梭哈！

△Bernini在统一框架内支持多种视频生成任务

这套巧妙分工，也让Bernini在视频可控编辑上，展现出了一批相当直观的视频编辑能力。

一条指令改变天气、季节、材质和风格

比如同一段城市航拍视频，输入指令后，可以从晴天切到雾天、雨天、雪天。

最关键是，它处理的并不只是天上多几片雪、画面加一层滤镜，而是会连带调整天空、光照、路面、建筑表面和整体环境氛围，让这场天气变化看起来像真的发生在原场景里：

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

作者gjqs

作者 gjqs

相关文章

OpenAI重返机器人赛道！四大核心岗位开招

机器人原生世界动作模型问世！首创时空一体架构，复旦系团队出品

世界模型榜首易主！跨维智能登顶WorldArena

You missed

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了2026-07-01

Claude Mythos让梁文锋决定融资2026-06-29

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑