


< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
视频版Nano Banana来了!内置Gemini世界知识;原版香蕉出图仅需4秒
Gemni 3.5 Pro到底啥时候来啊!!!
量子位 | 公众号 QbitAI
虽然Coding还是一坨,但谷歌搞「多模态」确实有两把刷子。
Gemini Omni Flash正式开放API,
视频版Nano Banana
麻瓜爆改「哈利波特」不再是梦想。且看官方用Gemini Omni表演的这四个数字魔术:
太离谱了,这一致性和文字清晰度,还要啥绿幕和特效,直接现场直播奇异博士。
与此同时,大家心心念念的「香蕉」,也迎来了「光速版」。
Nano Banana 2 Lite:迄今为止最快、最经济高效的Gemini图像模型。
出一张图,1K分辨率图像仅需约
和Nano Banana 2放在一起对比,这个速度,简直起飞了。
更别说一次生图能干3分钟的GPT Image 2……
Gemini 3.5 Pro
,敢情时间全花在心心念念的多模态上了是吧,哈萨比斯!!
Gemini Omni Flash
Google I/O 2026大会上首次亮相的Gemini Omni Flash,把Gemini的多模态推理能力与视频生成、编辑深度结合,当时就引发了不少关注。
如今,这个模型已通过Gemini API和Google AI Studio正式向开发者开放。能基于文本、图像和视频等多种输入,轻松生成高质量视频并进行编辑。
对话式视频编辑:用自然语言修改和精修视频,跟改飞书文档似的。
多模态参考:组合图像、文本、视频输入,保持场景控制和一致性。
现实世界知识:调用Gemini在历史、生物、叙事逻辑等方面的知识来构建视频,不用你再写三页Prompt描述建筑风格。
文字与动作同步:通过简单提示词,将文字和图形直接连接到视频动作。
价格也很有竞争力:每秒视频输出成本
0.10美元,跟Veo 3.1 Fast持平。
定位方面,同为轻量版视频生成模型,Omni Flash更强调Gemini世界知识,生态方面也是全面朝Gemini层靠拢的。
不过谷歌也挺坦诚,主动列了一堆现阶段局限:
1、目前只支持10秒视频生成,后续会支持更长;
2、暂不支持音频参考上传和场景扩展;
3、API支持最长3秒的视频作为参考素材,但目前模型还无法正确处理这类输入;
4、场景切换和运镜时的人物一致性仍有局限。
Nano Banana 2 Lite
Nano Banana 2 Lite(又名gemini-3.1-flash-lite-image),专为高速处理而设计。
经过针对性优化,它瞄准的是那些对延迟极度敏感、需要短时间内批量处理大量图像的实时应用场景——比如电商素材批量生成、广告创意快速迭代、自动化内容流水线。
光速:出图延迟约4秒,是Nano Banana 2的五分之一(后者约20秒)。
白菜价:一张1K图片仅需约0.034美元,是Nano Banana 2的一半,Nano Banana Pro的四分之一。
速度砍了,价格砍了,但生图和图像编辑能力并没有明显缩水。Nano Banana 2 Lite 依然保持了
出色的文字渲染效果,在benchmark上和Grok等模型处于同一水平线。
因此谷歌的建议是:如果你还在贪便宜用初代Nano Banana,
Lite版在各项关键指标上已经全方位碾压了。
本以为这只是两款并行的模型发布,没想到谷歌表示:还有新花样。
真正的神奇之处,在于将这些模型串联起来使用。
众所周知,AIGC创作需要反复迭代,素材管理相当麻烦。
如今,借助这两个模型,终于不用再反复上传文件了,
图像生成与视频创作无缝衔接。
具体来说,可以先用Nano Banana 2 Lite高速出图,再把生成的图像作为参考素材喂给 Gemini Omni Flash,一键转化为视频。
为了展示这套1+1>2的魔法Workflow,谷歌甚至专门做了
3个Demo APP:
自拍一张或上传照片,NB2 Lite瞬间把你P到几十个地标景点里。
接着点一下图片,Omni Flash把静态景点变成动态短片。