现在互联网上对 AI 模型能力众说纷纭,噪音太多了,说实话真不好判断。有的人说 GPT 好,有的说 minimax 好.....每个人使用场景和环境都不一样,无法决定。
Notion 说虽然测试结果很高,但是模型在 Notion里也可能不一样。自己的测试又说 GPT 5.5 效果特别好。
我还是用了我自己的“学习搭子”流程 Prompt 测试,效果比以前 GPT 版本好太多了,速度确实快。
然后我又刷到一家测试公司的结果表明在长文本和推理方面,GPT 弱于 Claude。
一时间,我无法判断模型的能力。于是灵光一闪:我能不能用别的模型来评价这个模型总结的内容呢?
所以,我转换为 Claude 4.7 模型,输入了 P1 的Prompt,效果出奇。教材章节总结效果碾压 GPT5.5。
总而言之,在 Notion 中,对于复杂文本,只推荐使用 Claude 模型;其他一些 agent或者不太重要的文本,可以使用 GPT。