Gemini 3 的正式发布公告来了
LMArena 直接干到了 1501 分,霸榜第一。发布即上线,今天起全家桶(搜索、App、API)直接能用。
甚至还推出了类似 o1 的 Deep Think 深度思考模式,和全新的 Agent 开发平台。
总结一下这次更新的核心亮点👇
推理能力史诗级加强
Gemini 3 Pro 现在是全球最强的多模态模型。LMArena 1501 分登顶。在 Humanity’s Last Exam 这种变态难的测试里拿到 37.5%,数学能力在 MathArena 上也是刷新纪录。不管是看复杂的图表还是解高难度的数学题,它现在的理解深度和细腻程度都上了一个台阶。
Deep Think 深度思考模式
这次谷歌也跟进了类似 o1 的慢思考模式。Gemini 3 Deep Think 会花更多时间去推理,专门解决那种需要剥丝抽茧的复杂问题。测试数据比 Pro 版本还要高一截,不过目前是先给安全测试人员用,Ultra 用户还得再等几周。
Agent 开发的新纪元:Antigravity
对于开发者来说,最重磅的可能是新的 Google Antigravity 平台。Gemini 3 在代码生成和长程规划上进步巨大,SWE-bench 达到了 76.2%。Antigravity 把 AI 变成了真正的合作伙伴,它能自己规划、自己写代码、还能拥有编辑器和终端权限,控制浏览器去验证代码跑得对不对,完全是端到端的体验。
记忆与多模态的融合
Gemini 3 现在的上下文窗口依然是 100 万 token,但处理信息的维度更广了。比如你可以把家里的手写老食谱拍给它,它能整理成电子版;或者把匹克球比赛视频丢给它,它能分析你的动作并制定训练计划。它不再只是读文字,而是真的在"读懂现场"。
这次 Gemini 3 的发布节奏明显感觉谷歌急了,但也真的认真了。
首先是落地速度。以前都是发 Paper 吹牛,现在是发布即上线,搜索、App、AI Studio、Vertex AI 全产品线铺开,这个执行力才是谷歌该有的样子。
其次是 Antigravity。这个名字起得很有意思——"反重力",感觉是想摆脱传统开发的束缚。Agent 不再是简单的对话框,而是拥有了编辑器和终端权限的独立实体,这才是 AI 编程的未来形态。
最后,大模型战役进入了"拼刺刀"阶段。模型能力差距在缩小,现在拼的是谁能更快把能力塞进产品里,让普通人用起来。谷歌这波"搜索+App+云"的组合拳,压力给到了 OpenAI 这边。
详情:
blog.google