高德发布了一个名叫 FantasyWorld 的世界模型,阿里的模型版图再次扩张。
作为头部导航应用这么大的数据量确实可以用来搞个模型。
发布之后在 WorldScore Leaderboard 这个专门用于世界模型的测试集排第一。
随着自动驾驶各家转向 VLA 和纯视觉方案,加上具身智能的火爆,感觉这类追求物理表现和 3D 一直性的世界模型会越来越重要。
FantasyWorld旨在为具身智能与AGI提供高质量3D世界模型。
在冻结的视频骨干上增设可训练的几何分支,联合建模“视频潜变量”和“隐式3D场”于一次前向计算中。
生成视频在保持强视觉真实感的同时,显著提升多视角一致性与几何保真,相比近期几何一致方法在多视角协同与风格一致性上更优。