谷歌的实时生成世界模型genie 3开放测试。
试了一下,太牛了!
超低延迟,超高分辨率,超强的物理表现。
详细的长文测评在这里:
mp.weixin.qq.comGenie 3 的核心特点
▸ 操控延迟非常低,差不多跟顶着高延迟玩美服游戏差不多
▸ 可以控制角色的方向和镜头的方向
▸ 画面清晰度相当可以用(720P)
▸ 角色跟环境的物理交互相当真实
▸ 可以持续操控角色超一分钟
这些特点听起来可能不起眼,但实际体验下来,你会发现这是一个质的飞跃。
======
测试 1:史前森林世界
我自己创建了一个史前森林世界,角色选了一个恐龙。
它会先生成一张首帧图片,你确定没问题了就可以开始生成世界。
可以看到我在本身连接美国服务延迟很高的情况下,这个视角控制和角色运动控制都非常跟手。而且恐龙运动非常顺滑和符合生物特征,角色一致性保持的很好,几乎没有变化。
我故意进行了一些大幅运动,环境一致性也没问题,没有突然变化和抽搐。
这时候我发现不对了,这东西好像真他妈的很牛批!
------
测试 2:毛毡风格蜗牛世界
然后我从预设的世界选择了一个毛毡风格的蜗牛世界,Remix 了一下,把蜗牛的蓝壳改成了红壳。
我发现提示里面写了可以跳,这次重点试一下这个。
首先可以看到风格化一致性保持的也非常好,一直保持了毛毡的变化。然后就是在我习惯了延迟和操控后,蜗牛变得跟手了很多。
我试了一次果然可以跳,而且蜗牛每次跳的高度都一致,没有发生陷到地里的情况。这时候物理表现已经初见端倪。
之后发现蜗牛走到石头的部分就被挡住了,走不动。后面我就开始频繁的跳跃,你甚至可以跳上台阶再跳下来。
而且在我一直瞎跳和转视角的过程中,之前的世界场景一直保持稳定,太牛了。
------
测试 3:伊斯坦布尔狸花猫
最后我想更加极限地测试一下物理表现。
我创建了一个伊斯坦布尔的优化版本,还有一只狸花猫。这个时候我已经习惯了这个延迟,能够完全可以非常自如地操纵它。
我上来就开始不走寻常路:我根本不走那条路,而是直接往路边的箱子上跳。
结果我发现,它真的能模拟猫的跳跃形态,而不是简单地四肢僵硬、像僵尸一样乱蹦。它是真的像猫在跳跃一样,会先伸腿。
然后它非常简单地跳上了路边的箱子。我甚至能从这个箱子跳到另一个箱子!
这太牛逼了,朋友们!尤其是你玩过 AI 视频的话。
视频模型甚至有时候都不能保证不陷下去,更别说以前的游戏穿模是非常常见的事,在这儿不成问题。
然后我就不断地在跳路边的箱子和拱路边的行人。我发现没有穿模的情况,它都能做出符合猫咪运动的动作,并且跟路边的墙和箱子有碰撞。
======
怎么使用 Genie 3
首先进去以后,你会看到很多个由"泡泡"组成的各种预制世界。
你点进去的话可以 remix 它,也就是把那个世界中的某些元素改掉。你可以改风格,可以改世界的内容,也可以改这个角色的内容。
------
Remix 流程
Remix 的时候,你就直接像用 Lana 改图一样,输入你想改的提示词就可以了。
改完以后:先点击"创建世界"左边那个按钮把图片改掉,然后再点击"创建世界"。
------
从头创建世界
最中间就是一个创建按钮,你可以通过这个按钮完全从头去创建世界。
你需要填写的话,分为以下几个部分:
▸ 左边:填写世界的提示词(描述这个世界是什么样的)
▸ 右边:填写角色的提示词(描述这个角色长什么样)
▸ 左边补充:你还可以写风格提示词(比如各种毛毡风格之类的)
▸ 下方:可以上传你生成的其他图片
▸ 模式选择:可以选择切换第一人称视角还是第三人称视角
这个我试了一下,视角切换有时候并不生效。
------
操作方式
进入游戏后,操作方式如下:
▸ WASD:控制角色的移动方向
▸ 右侧箭头:控制镜头的方向(这与常见的3D游戏操作类似)
▸ 此外,角色还可以进行跳跃操作
我感觉美国的朋友玩这个,如果延迟低的话会更爽。720P 已经完全可玩了,我们真的到了一个新的时代。
======
这意味着什么
想象一下!
可以通过大语言模型去构建世界,构建 NPC,加入各种随机事件,再加上一些音频。你可以想去哪儿就去哪儿,每个人都能构建自己想要的游戏世界和剧情。
像前段时间在 Steam 上爆火的那些 3D 真人影视游戏,现在看来是非常的触手可及,人人都可以做。
这个东西的想象力太大了,希望今年年底成本可以降一降,时间可以再长点。
------
一点遗憾
Genie 3 改变世界(即加入随机事件并影响世界的能力),这次由于算力问题没有加进来。希望谷歌能在后面更新一下。