21 年油管博主 sentdex 上传了一个视频,使用 AI 而非 3D 渲染,实现连续帧输出,玩了一段模拟GTA
当时,和朋友们比较务虚的进行了以下讨论:
「如果将人类的视觉需求分为两类:一类是信息需求,例如查看报表、地图和书籍;另一类是感官需求,如游戏和电影(并非指它们没有信息,而是指它们选择以视觉图像代替文字的部分,主要为了提供感官刺激)
对于信息类图像,必需要确保信息的准确呈现。在这种情况下,利用 AI 生成图像所消耗的算力永远大于使用基于规则的、非AI的程序进行渲染。
然而,感官类需求与此不同,其核心在于欺骗感官而非信息的绝对还原。尽管传统的 3D 渲染技术也在利用这一点(如烘焙贴图等),但整体上还是在通过引入更多的物理计算(如光追)来提高真实感,也就是说目标是再造一个真实世界。这种方案下(不考虑优化)每提高一点真实感,算力消耗都会成倍增加。导致许多算力并未直接呈现在视觉效果上,被“浪费”了
相较之下,AI 视觉生成在实现感官欺骗这个目标上更为直接。虽然在 sentdex 的示例中,AI 消耗的算力足以让传统 3D 引擎渲染出更好的画面,但未来某一天可能会反过来」
时间回到现在,相同硬件下 Stable Diffusion 之类的模型已经能比传统光追 3D 渲染器更快地生成具有相同真实感的单帧图片。尽管在可控性和视频抖动等方面仍存在问题亟待解决,但我们那时讨论的「未来某天」似乎已经经悄无声息的过去了