藏师傅字节 Seedance 1.5 Pro 视频模型首测!
这次支持了音画同出,更惊喜的是还支持方言生成,同时表演中的情绪表达和复杂运镜也都有非常大的进步
可以去火山引擎、豆包和即梦尝试,先看一下藏师傅的测试视频混剪
下面是具体的测试点评,提示词可以去长文看:
mp.weixin.qq.com案例 1
首先我找了一个可能没那么方言的方言陕西话,很多人说普通话的人可能听得懂,但又有一些读音很独特的词。
这种一般是比较难的,因为素材跟普通话太接近了,而且很多词不好标注,只有真的下功夫才能搞好。
同时场景选了我每天看的陕西面食吃播场景,文生视频,看一下整个画面和音频的融合程度,吃东西的时候也会影响说话,可以考验模型对于场景的判断。
结果相当惊喜,“聊咋咧”和“美滴很”这两个比较难的词都说出来了,而且音调也确实是陕西话的音调。意外的是提示词遵循比较好,知道先说一句然后喝饮料再说一句。
案例 2
然后是四川方言,我选了一个非常有挑战性的场景,在提示词里面加入了三个年龄不同、性别不同、打扮相差也很大的角色,说着不同的话。
这个提示词说实话难度有点大了,但 Seedance 1.5 Pro 确实给了我很大的惊喜,每次抽卡都能比较好的遵循提示词完成任务。
每个人都在用自己角色应该有的音色和音调在说话,而且不会串,“巴适得板”这种四川话独有的词也说的不错。
我是没有指定镜头运动方式的,它自己会将镜头通过类似摇臂旋转的方式对准正在说话的人,而且还有一点类似手持设备的晃动,镜头为止也在麻将桌没有露面的那个角色那里,看起来就像那个人手持拍摄一样。
案例 3
最后是粤语,这里也选了一个相当有市井生活气息的餐馆场景,依然文生视频。
生成出来的时候这个运镜真的顶,直接非常顺滑的从服务员的背面切换到正面,而且说话的时候很自然的打到男生的脸上。
提示词遵循也非常好,每个提示词中的细节都兼顾到了,还有所有动作台词的时间顺序。
对话里面以我这个不太懂粤语的人听,还挺是那个味的,粤语特有的发音也都可以说,也欢迎“粤语警察”提意见。
现在各种 AI 影视爆款里面涉及到音画同出的除了各种真实人像之外,宠物 AI 视频的流量也占了半壁江山,所以这里也需要考察一下宠物的声音和唇形同步。
案例 4
首先是小猫吃播,吃播对于音效和表情要求很高,吃东西必须得是跟视频材质相同的视频,这里小猫吃煎饺咔滋咔滋的声音就让人听的非常有食欲。
而且猫咪在咀嚼的时候很好的表现了出了非常拟人的为食物陶醉的表情,但是有没有恐怖谷的问题,相当不错。
案例 5
这里让猫咪说人话,除了嘴型以外还有解刨结构的考验,很多视频动物说人话的时候嘴里的舌头和牙齿就会变得像人,这里 Seedance 1.5 Pro 就很好。
模型输出的也是类似孩子的声音,最后我们还用...来表示说话的节奏和表现困意,生成的时候也按照对应的节奏放慢了说话速度。
案例 6
既然说到了音画同出的能力,那么模型的表演能力和情绪表现也是非常重要的部分,很多时候情绪或者表演能力跟音频的关系相当大,只有画面的时候表现力是不够的。
这里主要表现的是恐惧压抑和恳求的复杂情绪,眼睛这里很传神,将恐惧害怕同时又由于的情绪表现的很好。
第一句话的时候先是声音很低的,这个时候仿佛还没有下定决心,等到第二句话的时候就表现出那种反正说都说了胆子都大了,同时声音也变大了。
在第二句话的时候画面的变化也在同步发生,眼神明显坚定了很多。
案例 7
测试一下在 2D 风格化画风下的唇形同步以及面部情绪表现。
没想到在侧脸加 2D 的情况下模型的唇形同步、表情以及情绪变化还能表现的这么好,而且也没有出现向3D 转换的倾向相当稳定。
最后的啜泣声音与说话的声音融合的也非常好,碰到机器人的时候也有跟金属碰撞的声音,细节表现相当不错了。
这次更新的模型对于复杂运镜控制的表现也好了很多,可能你通过前面的一些案例也可以看出来,我们再来点难得。
案例 8
首先是一个大家熟知的高级运镜技巧希区柯克变焦。
我们这里搞的非常的离谱了,一个连续 12 秒而且速度非常快的希区柯克变焦,现实还是很难搞的,没想到它居然搞定了。
人物的表情也会有微妙的变化,同时音效也会跟随变焦的速度与主角呼吸的节奏变化,对于人物紧张的情绪渲染的异常的到位。
案例 9
这是一个长镜头测试,对于每个区域的规定也很详细。
可以看到每个部分中提示词要求的内容都有呈现,同时在人物遮挡前和遮挡后都保持了很好的一致性。
运镜部分非常稳定,而且在比较难得转弯部分以及最后人物停止之后擦汗的部分都严格遵循了提示词的要求,尤其最后镜头变焦到人脸的时候相当顺滑。
今天,火山引擎正式发布豆包视频生成模型Seedance 1.5 pro,即日起,个人用户可在即梦AI、豆包APP、火山方舟体验中心体验;企业用户自12月23日起可在火山引擎使用该模型API。