谷歌的 Gemini Robotics(一个 VLA AI 模型)增强了。可以让机器人自主处理复杂任务,少量演示就可以上手,即使没见过的也能泛化处理。
谷歌早已与其他大模型公司拉开了距离(实际上从去年 12 月发布 Gemini 2.0 开始) 包括 OpenAI ,让 AI 进入物理世界,可以有简单的路径。谷歌选择最难的——或者说他们一直在等待一个时机,大约 10 年前谷歌就在为其 AI 寻找一个合适的物理化身。
OpenAI 也正在研发机器人软硬件(去年五月重启机器人模型研发项目),Sam Altman 在最近 YC 的炉边谈话中还畅想着,「未来人们只需要订阅最高级的 ChatGPT,就免费送一个人形机器人。」
如今一年过后,OpenAI的物理 AI 形态还没砸出水花。Sam 依然在为 AGI 使命构建蓝图。
大厂的战略依旧很稳,谷歌在所谓具身智能里,没有亲自下场做本体,选择与 Apptronik (后来也投资了该公司),Agility 等厂商合作,而专注于机器人大脑的研发。
也可以说,这是谷歌在多模态大模型的发展中的自我进化。早些时间被 OpenAI 带着跑,现在他们果断走出和突破 LLM 的柏拉图洞穴 or 中文房间,选择拥抱现实世界。Gemini Robotics 是其构建世界模型的桥梁。
而这些都在为真正的 AGI 到来铺路,或者构建涌现智能的土壤,让其能赋予更多不同载体的机器人通用智能,以便真正能处理现实世界的复杂任务,人机协作,或者增强人类。