即刻App年轻人的同好社区
下载
App内打开
木遥
38关注4k被关注5夸夸
木遥
1天前
AI 用三件套这个词的频率比我一辈子都高
00
木遥
1天前
遇到了一个有趣的问题,正好落在 AI 模型的能力边界处:试证明不可能把平面分成无穷个圆的无交并。

在我尝试的所有模型里,只有 GPT 5 thinking model 成功做了出来(虽然花了点时间)。

有趣的不是这个结论,而是观察它们的思路。所有失败的模型都有个共同点:它们的思考基本上是从文字到文字的。它们会调用自己脑海中各种已有的定理和知识,然后漫无目的地试图拼凑出一个证明,但所有这些定理,不管是拓扑的还是几何的还是测度的,对它们来说都是纯粹字面意义上的陈述。Qwen 的思考过程最典型:它滔滔不绝想了很久,但很显然从头到尾它都并不真的理解它在说什么。圆也罢,开集闭集也罢,Baire 纲定理也罢,对它来说都是纯粹的概念,给人的感觉是它甚至并不真的知道「圆是圆的」。

微妙之处在于,这种「没有几何直觉的几何思考」在某些时候其实未必是一种劣势。现代数学早已挣脱了对三维现实想象的依赖,大部份数学思考本来也确实是在纯粹的概念思辨空间中进行(特别是当问题进入代数乃至范畴论的领域的时候,这时从概念到概念的思考就变成了一种必然)。有的时候,几何直觉甚至反而会成为一种束缚,特别是当思考高维空间的时候,基于低维现实的直观常常是有误导性的。在这些问题上,AI 的「盲目」反而带来了自由,使得它不必受困于视觉直觉。——当然,人类的视觉直觉可能会渗透进人类的文本语料里,在某种程度上「污染」AI,但这是另一个问题。

然而对原问题来说,因为这是一个低维问题,直觉在这里不但有用,而且能大大缩短思考搜索的难度。在这一点上,一个把圆只作为抽象概念来理解的 AI 就会有巨大的劣势,因为它无法享受到几何直觉带来的跳步。这种直觉使得人可以一眼「看出」关键的构造,而这种构造在文本层面被搜索出来是困难的。

考虑到 AI 的应用毕竟大多数情况下还是为了解决世界现实问题而不是思考高维几何,有几何直觉的 AI 会在大多数问题上显得聪明得多。于是一个现实问题是,这种直觉是只有依赖多模态的训练才能获取,还是可以通过精巧的文本训练就能实现?这有点像是 AI 领域的玛丽房间问题。这是一个经典的知识论思想实验:一个从出生就生活在黑白房间里、精通颜色物理与神经机制的科学家玛丽,当她第一次走出房间看到红色时,她是否获得了新的知识?

今天大多数 AI 领域的困难都可以归结于此。人类是自己感官的奴隶,我们听到、看到、闻到,我们体会身体激素的涨落,我们想象、困惑、愤怒,然后试图把这一切投射在文字空间里。AI 则正好相反,它们在文字里理解这一切,但最终需要努力地——有时候是徒劳地——明白,一个圆在什么意义上是圆的。
63
木遥
1天前
你还别说,我今天试着和 GPT5 聊了一个私人问题。我本来预期自己又会被那个傻逼直男腔调激怒。

但没有,在这个预期之下,我发现我还是能听进去,而且因为是用一种非常各色的口气说的,不知为何显得更有说服力了。就像你去看病碰到一个情商巨低的医生,然后你 somehow 会对自己心理暗示说他说话这么难听说明一定有点道理的。

我是不是被 PUA 了……
20
木遥
1天前
发现一道有趣的题目可以用来验证 AI 能力。目前我只发现 GPT 5 thinking model 能做出来:

试证明:不可能把平面分成无数个(不可数个)圆的无交并。注意圆指的是 circle,不是 disk.

我觉得难点在于这里需要有一点点几何想象能力。Gemini 似乎缺乏这个能力。
20
木遥
2天前
生活已经这么苦了为什么 OpenAI 还要让我们忍受一个傻逼直男
(何况也并没有更聪明啊! ​​​
32
木遥
3天前
GPT 5 推出之后大家照例让它算 10.9 10.11 的差。它照例失败了,成了新一轮笑柄。倒是真的实现了传说中的 Ph.D level,因为博士生一般来说算术都不好。

当然这不是它一家的问题,别家 AI 也在这个简单的题目上纷纷翻车,包括我很喜欢用的 Gemini Pro 2.5。但 Gemini 翻车的姿势还要更炫酷一点:作为一款思维链模型,它知道这种时候应该调用 Python 来算。但当 Python 返回了正确结果之后,它的反应居然是:「我觉得 Python 算的不对,还是我自己来心算好了。」然后算错了。

这个错误虽然好笑,但暴露的是这一整轮 agentic AI 发展的致命弱点。Agentic AI 作为一个框架要能运行,前提条件是 AI 知道什么时候该使用并依赖外部工具。当然,这里的分界是模糊的:一个小孩子如果在算三位数乘法的时候掏出计算器,你不会批评。如果这个小孩算一位数乘法也要用计算器,你会怀疑是不是智力有点问题——当然无论如何至少结果是对的,但你会心想一个高级一点的大脑是不是应该合理判断这个问题不值当用外部工具。而现在的问题是这个小孩算一位数乘法,掏出计算器算了个结果,然后觉得不对扔掉了,自己心算了一个错误的答案出来。这是人类有可能犯的错误吗?

其实也是。而且如果你细想,这恰恰是非常「人类」的错误。人类的思维之所以不可靠,就是因为我们常常把直觉凌驾于客观证据之上。不是因为我们缺乏证据,而是因为我们不信任证据(例如曼德拉效应)。对人类来说,仅仅因为看到了和自己内心信念不一致的信息就放弃旧有信念不仅是困难的,而且是痛苦的。

但我们发明 AI 本意不就是避免这个缺陷?

于是我们面临着一个尚未有定论的问题,就是以大语言模型为基座的 AI 是不是先天继承了人类的心理偏见机制。我们对 AI 的期待是它能尽量不偏不倚。当然,在社会政治文化领域这是困难的,没有人能指望 AGI 在巴以冲突问题上能做到只看事实没有立场。但在别的更数字更技术的领域呢?给 AI 一份几万字的报表,AI 能够忠实灵敏地查阅所有细节,然后在回答问题的时候精确合理地引用某个细节吗?这不仅仅是我们对 AGI 的期望,这还是要撑起它所联动的万亿市值市场的前提条件。

今天的 AI 尚不能实现这一点,是因为这里有个内在的技术困难:思维链条不是数据库,而是把数据以自然语言的形式有损压缩在中间状态。这种压缩本质上就类似于人类以印象代替现实的思考模式,也是诞生偏见和误解的根源所在。要从根源上铲除它的土壤,就是要让这种压缩在事实上变成无损的。

于是我们面临两种可能的技术前景:

要么下一代思维链条(或者思维树,思维网络,或者不管什么别的数据结构)真的能实现对数据不依赖印象的理解和综摄。这在实践上已有尝试,比如程序化中间表示(JSON-graph、逻辑项、SQL、符号代数),或者对数字、日期、单位、表格索引做硬约束解码。简而言之,找到绕过以文字为思维载体的办法,把图像、数据和表格原生嵌入 AI 思考流程。

要么我们撞上了自然语言的先天限制。AI 将和人类一样,无论再怎么用力检查、对比、参考、判断,也只是不断用一层又一层的新的印象覆盖旧的印象,新的记忆调和旧的记忆,直到自己迷失在真实和幻觉之间的缝隙里。

前者是一种达芬奇式的前景,后者是一种博尔赫斯式的前景。或者用东方哲学的话说,前者意味着更强大的语言模型能够实现「坐照」之境,而后者意味着除非在底层重写技术框架,否则我们将不可避免的撞进文字障。

目前还没有证据证明哪个前景更有可能。前者如果成真,则立足于 AGI 的人类社会工业再数字化不但可行,而且指日可待。后者如果成真,则 AGI 不过是大号的人类,会在分裂和偏见之上引入新的分裂和偏见,不知伊于胡底。

大多数人对 AGI 的期待似乎是前者,并且这种期待如此底层,以至于甚至不需要宣诸纸面而是视为理所应当。然而如果人类运气不佳(一向不佳),我们很可能正在走向后者。
99
木遥
3天前
快要被 GPT5 这个爹系直男画风激怒了
30
木遥
4天前
再好的工具,再强大的 agentic 环境,也顶不住工具后面那个普通且自信的灵魂
11
木遥
5天前
Altman 大概是低血糖
蹲坑太久站起来也会这样
115
木遥
5天前
想象中AGI的最大挑战:黎曼猜想
现实中AGI的最大挑战:
103