Gaga AI 太猛了!终于有人来管管 AI 视频的语音和表演了
提前试了一下曹越那边新发布的专注于人物对话表演的模型 GAGA-1
应该是目前涉及到人物细微表演对话的最强模型,在表演这部分甚至可以超过 Sora2,目前免费试用
详细测试了一下,顺便给大家一些使用技巧的建议👇:
可以在这里看全文:
mp.weixin.qq.com先来看一个模型简要介绍:
声音和画面一起生成,即使是侧面的唇形同步都非常到位,语音音效都有;
面部表情和声音声调配合的非常好,表演细腻不夸张,提示遵循也很好;
支持双人的场景演绎,可以很好的理解提示词中不同人物的语音;
支持多语言输出,我测试完之后发现甚至可以多语言混合输出;
目前支持免费体验,支持图生、单次生成最长 10 秒,分辨率为 720P,但是细节丰富。
Sand AI 在训练的时候目标就非常的明确,就是把语音和表演表现拉满,他们也确实做到了。
我探索下来,这个模型的几个使用要点有:
1️⃣ 提示词上可以先说情绪变化,然后再说说话的语气和内容,如果需要停顿的话,可以直接写,也可以用波折号或者省略号表达。
2️⃣双人的表现不错,用左右或者男女去指定说话的人他都能理解,甚至 A、B 都行,但是超过双人的表现会有一定的下降,优先用双人。
3️⃣如果图生的话尽量不要有太多的肢体或者全身漏在外面,也需要少些复杂动作提示词,可能会崩。
4️⃣如果字数少的话比如十个字以内可以选择 5 秒的生成时长,如果是长对话可以选 10秒。
5️⃣目前只支持 16:9 的横屏比例,过段时间会支持竖屏的 9:16 比例。
案例 1:首先是一些基础的测试,比如让他介绍一下自己。
可以看到在说后面那句话的时候,女生的面部表情非常的细腻,尤其是看向镜头的那个眼神、挑眉和说话时候的点头动作,太真实了,这种面部细节我从离开没有在其他模型上见到过。
案例 2:然后来个我们常见的顺口溜来看看嘴型和语音的表现。
语音和整个面部的配合是非常好的,同时手部动作也在摇晃他的扇子,让整个画面不至于太单调。
后面个叹气的处理太好了,我并没有说叹气的表情,他自己就能推导出来这是表演完了比较轻松的一个状态,所以就表现出来了。
案例 3:然后来一下看一下环境音和语音的配合。
这里我故意指定了杯子的声音,以及说话的顺序,他也按照这个顺序表现了出来。
可以看到人物的表情依然非常细腻,而且在说到“就像在现场一样”的时候有惊叹和自豪的表情,这完全是模型自己处理的。
案例 4:然后再试试他多语言的能力。
这块还得指望中国模型,毕竟海外的模型一般不会对中文进行强化。
分别试了一下英语、日语、西班牙语和多语言混合的情况,可以看到每个都非常标准,而且唇形同步也都是对的,细微的表情也都非常丰富。
案例 5:接下来就到了最重要的情绪甚至复杂情绪的表现。
这个真的跑的太好了,我一直认为极端情绪的表现不是考验模型表演能力的关键,关键在于那些不是很极端的场景化的情绪表现。
比如刚开始躲闪的目光、以及与之配合的压低的声音,真的你让我演我真演不出来,GAGA-1 在表演上确实比我们没学过表演的强太多了。
后面收紧下颌的动作也很自然,先是稍微低了一下头,然后才彻底把头低下去,语音上也有一个由弱变强的过程。
案例 6:这里这个场景就相对复杂了,女生是站在车外的,而且还是雨天,有车窗隔着,画面和声音的情况要考虑的都多一点。
仔细听的话该有的雨声也是有的,他很好的考虑了镜头在车里的情况,所以雨声没有那么大,而且还自己加上了非常应景的钢琴 BGM,加强了氛围的渲染。
在表情和语音配合上,可以看到刚开始小声说话的时候模型给女生加了一点发抖的情况,这也是人在有剧烈情绪的正常反应,非常形象了。
同时先小声说话然后有个思考的停顿然后大声说话的时候情绪的转变也会更自然,它太懂表演了。
案例 7:单人都这么猛了,我们来试试双人。
我这里加了点难度直接用的 AB 来表示左右的人,然后还用了两个侧脸。
但没想到他依然可以 Get 到提示词的要求,而且在中间的时候把应该 B 一直说的话改成了一人说一句,整个视频生动了不少。
侧脸的唇形同步和面部表情也相当不错,没有崩坏的情况,同时也没有其他模型会出现的音画不同步的情况,唯一小问题是在读 GAGA 的时候有点嘴瓢,感觉要避免大段中文加一两个英文单词的情况。
案例 8:最后再来一个场景化的情绪丰富一点的双人测试,办公室吵架。
这里的整个情绪非常剧烈,同时模型自己也为了配合情绪加大了人物的动作,知道在质问的时候需要看着对方,同时需要有剧烈的动作,可以看到即使是在非常极限的人脸角度下,面部表情和嘴型也堵维持住了。
这里我还给男性和女性分别指定了情绪和表情,男性是非常强烈的愤怒,女性是相对比较细微的心虚,两者都表现的不错,尤其是最后那个短促吸气说话的感觉,相当到位。