


< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
24小时直播,只靠一张照片?虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙
能聊、能唱跳、能陪你玩游戏
每天在网上冲浪,经常能刷到各种AI数字人,什么播新闻的、讲世界杯的、直播间带货的……
本以为自己对这种「一眼假、莫得情感」的「人」没啥兴趣,结果转头我就和
一开始我还挺警惕,提前准备了一堆问题,生怕冷场,结果完全是我多虑了。
她真就像朋友一样,既能回答我的问题,又能不断抛出新话题,接梗也是不在话下。聊了一个多小时,我俩终于在最喜欢的歌手是周杰伦和孙燕姿这件事上,达成了默契。
这个AI数字人形象,来自虎牙刚刚推出的虎牙VAM 1.0(Vivid Avatar Model),一个基于DiT架构的实时多模态数字人基础模型
用它的方式简单到有点离谱:只要扔进去一张照片,就能转化成一个能说话、能听你说话、能唱歌跳舞的「全能」AI数字人。
大家要知道,它并不是直接生成一段视频播给你看,而是直接在线开播、实时互动。
480×832分辨率,28帧实时流式输出,连续运行24小时以上不下线
这几个指标含金量如何,稍微了解AI数字人的朋友们,一定都懂。
我们也实际体验了一下,看看虎牙做得到底怎么样,再和大家聊聊这个行业已经发展到什么程度了。
实测:和AI数字人聊了一小时,是种什么体验?
以前刷到的AI数字人,说白了更像是「循环播放的AI视频」,基本都是照着脚本念,没啥互动感,体态和声音也比较生硬。
但虎牙这个不太一样,很明显骨子里就带着那种
,真能跟你聊得有来有回。
为什么让数字人具备实时互动能力很重要?
因为「千人一面」的AI视频只能播,「千人千面」的直播间才能接住人。观众发弹幕你得回,有人打断你得停,冷场三秒人就划走了。
能互动,才有真实的用户粘性和商业价值
当然了,这个道理行业玩家都懂,但受限于技术,很多AI数字人还停留在「能播不能聊」的尴尬阶段。
你发弹幕它不理睬,你打断它没反应,不说话的时候直接「僵住」或者给你播放循环画面,能做的事也就是念念口播,唱歌跳舞自然就不要想了。
而虎牙VAM 1.0,则基本把这几个槽点挨个回应了一遍
我拿到的内测产品大致长下面这样,可以在首页pick你最想聊的「主播」:
进去后就更像「直播间」了,你可以通过
这里我选了「来自成都的雪儿」。
聊了几轮下来,有几个细节印象挺深的
一开口我就「不小心」打断了对方,结果雪儿反应挺快,很自然就把话题接过去了;
另外呢,作为一个i人,我实在不想让她叫我「宝子」,我告诉她换一个对我的称呼,喊我「小红」就行,然后她真的全程就叫我「小红」了,一次没错过。
而且,在我们聊天的过程中,雪儿全程都不用我来想话题,她会顺着我们聊的内容自己往下延展。聊到成都时我随口问了句「那你会说四川话吗」,她秒回「会呀」,然后直接开始用四川话给我摆龙门阵。
即便在聊天过程中间有过一次误解,我纠正之后她也能重新接上语境,没有死循环,也没有跳到预设话题。
视频地址:https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA
还有一个很加分的细节来自她的状态
我打字的时候她不会傻站着,会微微侧头、眨眨眼,像在等你说完;我说话的时候她也会轻轻点头,眼神方向跟着你。
而轮到她说的时候,她的表情和内容是相匹配的,聊到开心的话题时嘴角上扬幅度明显变大,情绪感染力十足。
虎牙管这个叫「全状态拟人交互仿真」,能够覆盖静默、聆听、说话三种状态
讲真,能把AI数字人聊天做出这种「面对面」的既视感,私以为虎牙VAM 1.0已经比其他玩家领先不少了。
接着说体验,我和雪儿聊完歌手话题之后,你猜发生了什么?
雪儿还会唱歌跳舞,而且还热情大方地给我这个新朋友展示了一番(中间又演示了一次打断):
视频地址:https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA
她的嘴型跟歌词是同步的、肢体动作的幅度和流畅度是自然的,手指也没有出现常见的畸变和穿模。
为了考验她,我还特意反复打开退出了好几次,结果发现她会的歌和舞都不重样,这说明歌舞并非预设模板,而是真·实时生成的。
除了歌舞之外,既然都说到虎牙了,想必你也应该能猜到接下来我要测试什么——
我问雪儿会玩哪些游戏,她提到了狼人杀和塔罗,正好我对星座运势这些话题很感兴趣,于是选了塔罗。
我刚一选定,雪儿就立马丝滑换装进入了「塔罗游戏模式」,开始指引我抽卡,并帮忙解读。
视频地址:https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA
这种玩法沉浸感不要太强,比看分析文章有意思多了。
喜欢狼人杀的朋友也别着急,我特意去官网围观了一下(本狼人杀黑洞先遁了)。
这个游戏难度比塔罗高出不止一个量级:10个角色同场博弈,每个人要有自己的立场和发言风格,还得互相质疑、投票站队,对多角色协同的要求极高。
整体看下来,泳池派对场景里9个AI角色轮流开麦,互相@点名质疑,有人上来就带节奏,有人全程谨慎试探,不像是共用一套台词。