在工作和生活层面,与 AI 深度协同一个月后,月末复盘总结(20250603-20250702 共 30 天):
1)客观数据看,
一共会话 888 组,消息 6530 次,日均 218 条消息,其中 o3 使用了 4789 次( 日均 160 次),绝对主力模型,明细如下:
Deep Research: 123 次(每天最高 24次,平均 4 次,满血基本用完了,轻量级没用着)
o3: 4789 次(日最高 467 次,平均 160 次,最低 19次)
o3-pro: 47 次(日最高 9 次,平均 1.5 次,06.10发布)
o1-pro: 4 次
GPT-4.5: 473 次 (日最高 31次,平均 16次)
GPT-4o: 607 次(日最高 86次,平均 20次)
GPT-4.1: 100 次
o4-mini: 25 次
o4-mini-high: 65 次
Gemini 2.5 Pro: 272 次(这是 Google 的 Gemini 产品)
Google Deep Research: 24 次
Claude Sonnet 4: 32 次
其他 : 忽略不计
2)主观感受与观察:
没有最强模型,每个模型都有自己的“性格”和擅长领域,不断协作,持续“体感”,掌握不同模型差异,才能在具体场景中选对模型,拿到最佳结果。
顶级模型的Benchmark已趋同,但“智商”相似不代表能力相同,解决实际问题的效率和质量才是王道。Agentic能力是拉开差距的关键。ChatGPT 中的 o3/o3-pro 已经脱离普通模型范畴,是一个 Agent。
o 系列(推理模型)和 GPT 系列(普通模型)差距已经很大,复杂类问题优先使用 o 系列模型解决,事半功倍。
大模型厂商目前很卷,不用一直寻找最佳模型产品,能帮你解决实际问题多的就是最佳产品,个人体感目前 ChatGPT 依然是全科领域综合最强,不会选就选它。