应该是今年倒数第二期 newsletter 了,不能免俗的谈一下 o3,不管 OpenAI 有多少争议,12 天发布的最后一发的确是有分量的。
周末已经看了不少讨论。因为大部分人都没有用上这个模型,所以讨论集中在放出来的几个“跑分”上。其中最关键的就是那个 ARC-AGI 测试。
这个测试集已经创建了 5 年,它的设计原则是:在很少的先验知识前提下,对人类很简单,对机器很难——考验的是模型是不是真的有“智能”——按照人类的标准。
5 年以来,在 o3 出现之前,还没有什么模型能在这个测试上取得和人类相当的成绩。
ARC-AGI 测试的设计者 François Chollet 在 2019 年发表了一篇题目为 On the Measure of Intelligence 的论文,详细论述了度量智能水平的思路和原则,这个测试也就由这篇论文而来。
我去读了这篇 64 页的论文,才开始理解为什么 o3 会采用这个测试来证明自己的能力,以及它和 GPT 系列模型之间的关系。
在 2024 年年尾,释放出这样的信息,意味着我们将在 2025 年看到很不一样的变化。AI 的进化肯定没有撞墙,而是在进行分化和分工:不同的模型因为智能水平的不同而被选择扮演不同的社会角色,正如今天的人类社会一样。
面向 2025 年可以做的预测很多,我也尝试做了一些,放在文章最后。