Google是会挑时间,Grok4.1上线还没24小时,Gemini3.0 Pro就来了。
总的看下来就两个字:真神!
不说其他的直接上数据(详细数据见P5):
LMSYS Chatbot Arena Elo:1501
(首破1500分,领先第二 Claude Sonnet 4.5 约 30 分)
ARC-AGI-2:31.11%
(人类最难的通用推理基准,全球第一)
GPQA Diamond(博士级科学题):93.8%
(开 Deep Think 模式)
RWE-Bench Verified(真实代码修复):76.2%
(第二,仅输 Claude 1 个点)
工具使用 τ2-Bench:85.3%(大幅领先)
简单说:推理、多模态、工具调用全面顶尖,代码稍微落后 Claude 一点点,但差距已极小。
横向对比(无拉踩的意思):
想刷榜、搞科研、玩多模态 :Gemini 3.0 Pro 目前最强;
纯写代码、追求极致稳定 :Claude Sonnet 4.5 仍稍胜一筹;
要快、要便宜、要日常好用 : GPT-5.1 还是最均衡;
一句话,纸面参数已经封神,实际体验还是得等大家试过才是知道。
#AI工作流