GPT-5发布 5 天观察:期待与现实的差距
这几天一直在用真实商业和生活场景案例对比测试GPT-5、Gemini 2.5 Pro、Grok4和DeepSeek,结果有点意外:
GPT-5代码能力确有提升,但让模型根据任务自动切换模型,根据这几天大量用户的反馈+我自己的真实测试,整体表现不及预期,很多场景甚至不如4o/4.5,综合体验不如 Gemini 2.5 Pro。
一些局限思考:
如果这次 OpenAI把编码能力单独做成专门模型发布,市场反响可能会更好。
这次发布是否侧面反映了被Meta大量挖角后 OpenAI 的人才管理问题?
现在更看好:
1️⃣、Google的整体发展路径
2️⃣、Claude的编码能力
3️⃣、Meta重金招揽人才后的新模型潜力
当然吐槽归吐槽,也要赞一下 OpenAI 可能在试验新的产品形态(自动模型切换),这种尝试本身有价值,即使前期体验不佳,但要做到自动模型切换,也需要极强的推理能力才能实现。
所以继续探索吧。