AI圈最近又吵起来了。
一边说,压缩即智能。AlphaZero没看过一盘人类棋谱,光靠自己跟自己下棋,就学会了顶尖战术。OpenAI o1不需要新数据,只是让模型多想几轮,推理能力就大幅提升。
另一边说,追逐通用人工智能是错的。婴儿在学会说话之前,早就知道东西会掉、遮挡物后面有东西。这些本事不是看书看来的,是摔出来的。
两拨人各说各话,就像两个盲人摸象,一个摸到鼻子,一个摸到腿。
其实他们摸的是同一头象。
任何智能系统都面临同一个困境:世界的信息是无限的,而自己的脑子是有限的。唯一的解法是压缩,把无数现象归纳为少数规律。
万有引力是压缩,“火会烫”也是压缩。区别只在于压缩的对象不同。
一种压缩,作用在别人已经压缩好的东西上。你读牛顿的公式,背勾股定理,学别人写好的代码。这是站在前人肩膀上,高效但吃的是存粮。
另一种压缩,直接作用在世界本身。婴儿扔一千次东西,才学会“它会掉”。这一千次试错,就是从世界里硬生生压出因果模型。
语言模型走的是第一条路:吃存粮。它把人类几千年压好的压缩包,拆开、学习、再重组。这很聪明,但存粮有限。数据快用完了,模型越做越大,进步的幅度却在变慢。你不可能只靠反复阅读别人的笔记,就变成一个独立的思想家。
另一条路自己压,无论是物理世界还是数字世界,每一秒都有新的交互在发生,新的反馈在产生。一个算法在股市里亏了钱,一个智能体在游戏里摔了跤,一个AI在对话里说错了话,都在逼它从现实世界里直接学习。这条路没有天花板,因为世界本身是无限的。
书里的知识,是别人给你的压缩包。摔出来的本事,是你自己压出的源文件。“交互”的本质就是获取高维度的、非结构化的反馈信号,所以这两条路并非二选一,而是螺旋上升。
婴儿用身体压出常识,科学家用符号压出规律。前者打地基,后者盖高楼。高楼建起来后,又能指导更高效的地基。
没有地基,高楼会塌。没有高楼,地基只能深埋地下。
因此这场争论的真正价值,不在于谁对谁错。它逼我们回答一个更根本的问题:在算力和资金都有限的条件下,究竟该往哪个方向走?
我的答案是:往“交互”这边挪一挪。
今天的AI,不缺那个读遍群书的科学家,缺的是那个会摔倒、会爬起来、会在真实世界里越活越聪明的婴儿。
倘若眼下的这条路,方向从一开始就是错的,等我们撞上南墙再回头可能就晚了。
而“交互”这条路,目前看似笨重、烧钱、回报慢。但它通向的地方,可能是语言模型永远到不了的。