前几天听
@张小珺 对谢赛宁的7小时的访谈,很柔软很干净很好听。
于是我去读了JEPA那篇论文,试图理解他们定义的问题。
谢赛宁说:"Silicon Valley is very LLM-pilled." 于是他与Yann 共同创立 AMI Labs 。并且选择了纽约。
25人,35亿美元。方向是:World Model。我想他是敢于正视 LLM 显而易见的不足,不装睡,且主动定义问题的。
一、World Model 是什么?
更具体说AMI定义的(区别于李飞飞的)World Model 就是让机器学习"世界怎么运作"
LeCun 给了一个公式:
World Model = f(st, at) → st+1
就是:给定现在的状态,加上一个动作,预测接下来会发生什么。
不是预测下一个词,不是预测下一个像素,而是预测"世界接下来变成什么样"。
婴儿不需要知道"重力是9.8",他只需要知道"松手东西会掉"。这个"做 A 会导致 B"的直觉,就是 World Model 要建模的东西。 World 是一个目标,不仅是一种方法
于是我就顺藤摸瓜,翻来了LeCun的《A Path Towards Autonomous Machine Intelligence》, 提供了一个框架:JEPA
二、JEPA:如何在表征空间里预测
如果让 AI 直接预测像素画面,风吹树叶的每一帧都不同,模型会学到崩溃。
JEPA 的做法是:先压缩,再预测。把真实世界的画面压缩成一个抽象的"表征空间",然后在这个空间里做预测。这样风吹树叶的随机细节会被丢弃,留下的是"物体有惯性"这种本质规律。
JEPA 还引入了"潜在变量 z"——同一个起点,可以通向很多种合理的未来。现实不是单线的,是多叉的。
还有一点:Mode-2 的规划,本质是"满意化"而非"最优化"。
人类不是找到最优解才行动,而是"差不多够好"就行动。AI 也是如此——找到第一个满足 Cost 阈值的方案就停了,不是穷举所有路径。
H-JEPA:层次化的好处
单个 JEPA 只能做短期的单步预测。H-JEPA 把多个 JEPA 叠起来——高层预测长期的抽象趋势,低层预测短期的具体动作。
这个设计有认知科学依据:婴儿4个月大时才建立"物体恒存性"——知道东西掉到地上不会消失。这种高层抽象概念,是在更具体的感知经验之后才建立的。
但有个隐患:层次越高,"噪音压缩"越厉害。 不同文化的 World Model,高层表征可能会变得不可通约——两个系统说不到一起去了。
三、为什么高维表征很重要?
这里有一个更基础的问题:为什么仅靠语言不够?
LLM 处理的是 token 序列。每一个 token 是离散的、压缩的符号——它可以是"重力"、"疼痛"或"谈判",但每个词指向的那个真实的因果关系,并没有被建模。
举一个具体的例子:LLM 输出"松手东西会掉",这五个字在语言层面完全正确。但婴儿在真实世界里摔过一千次建立的因果直觉,和这五个字的关联,是完全不同的两件事。
第一,语言是对现实的压缩映射。 现实是连续的,语言是离散的。把"力度、温度、角度"压缩成"重力"两个字,必然丢失精度。
第二,语言只擅长处理已经被语言捕获的知识。 那些从未被写进文本的因果——液体表面张力的细微变化,人对权力距离的直觉——LLM 完全无法触及。不是数据不够,而是这些信号从来没有上传过。
第三,语言是推理的终点,不是起点。 我们用语言描述世界,但语言本身不能替代对世界的体验。菜单不是饭,地图不是疆土。
四、我尝试把世界难题的三层结构
把"难题"分层,会更清晰:
第一种 :物理世界的隐性规则
有些规则客观存在,但从未被语言精确描述——"这东西会滚"、"那东西会碎"。婴儿通过反复行动直觉到这些,高维表征可以在某种程度上捕捉它们。
第二种:符号建构的社会现实
有些领域,规则本身就是语言建构的——合规审查、地缘政治分析、法律解释。它们没有物理对应物,"真相"就是规则本身的表述。
当 LLM 开始决定什么叫"合规",它就参与了规则解释权的分配。这和"法律解释权"的问题一脉相承——法律的意义由文字表达决定(拉丁文 ipsissima verba),LLM 正在接过这个权力。
第三种:介于两者之间
金融市场是典型的灰色地带——有物理世界的资金流动,但每笔交易背后都是语言建构的预期和叙事。语言信号和物理信号交织,分不清谁是因谁是果。
但这里有个深层问题:社会现实的建构,本质上是语言性的。
五、语言不仅是接口,也是建构性元素
谢赛宁在访谈里说,LLM 应该是智能的 interface,不是全部。 我非常同意, 但是从这两年实践来看, 我以为语言不仅如此,
在人类世界里,语言毫无疑问是人与人之间、人与 agents 之间最核心的接口。但问题在于:有些领域里,语言不只是"怎么描述事物",而是事物本身的一部分。
福柯的视角来看,权力不只是压制性的,它还具有生产性——它生产"真理",生产"合规",生产"正常"。这些判断一旦被语言确认,就成了社会事实。你无法绕过语言去观察"真正的合规性",因为合规性本身就是被语言建构的。
这和物理世界本质不同:重力不因为我们怎么称呼它而改变。但"合法"与"违法",一旦被法院判决确认,就成了真实的社会约束。
所以在社会世界里,高维表征能做的,不是"绕过语言建模",而是:
- 更好地建模语言背后的人际关系和权力结构
- 更准确地捕捉话语实践中的权力不对称
- 更深入地理解特定 discourse 里的规则如何被建构
这不是在捕捉"社会真相",而是在建模"语言建构的社会现实如何运作"。这本身已经是有意义的工作——虽然不是万能的。
六、AGI开放问题:缺的那几层楼梯
我以为JEPA 不是抛弃LLM以及多模态,而是以此为脚手架,试图走的更远,我试图理解 ,
第一层:做事 —— 从LLM/JEPA 都能做,且可以更好
第二层:反思目标和质疑框架,LLM不行,JEPA似乎也没这个入口
第三层:前语言的视觉/身体, 反复提到vision,可能是正确入口
每一层需要的不是同一类技术——做第二层需要某种形式的反身性或者元认知;第三层需要的可能是具身性(embodiment)和主动探索信号的架构。
为什么"反思和质疑"这个层次,很重要
我理解的 JEPA 和 LLM 都在优化一个给定的目标函数。区别只在于:JEPA 优化的是"预测误差",LLM 优化的是"下一个 token 的概率"。
两者都没有能力问:"我设定的这个目标,是对的吗?"
这就是"反思"的缺口——不是不知道怎么做,而是不知道该不该做现在在做的事。
人类有这个能力:我们可以停下来问自己"我是不是在做一件蠢事?"然后改变目标。AI 没有这个能力——它的目标函数是固定的,不会自我质疑。
更技术地说:JEPA 的 latent variable z 只建模"路径的不确定性",不建模"目标本身的对错"。而 Configurator 调制所有模块,但谁来调制 Configurator?每一层控制之上还需要更高层,没有终点——这是递归问题,无法在架构内部解决。
最诚实的路径也许是:让 AI 在人与人的对话和批判性互动中,被外部视角持续质疑和修正。
以及 World Model 面临的最深层问题,不是"怎么做",而是"为谁做"。
如果一个系统在设计时就已经预设了"什么是重要的、什么是噪音",那它永远无法质疑这个预设本身。
七 关于LLM和AGI的关系,
我赞同LeCun的关系
谢赛宁有一个更形象的类比:如果把5.38亿年的寒武纪压缩成一天,语言、抽象思维、行为现代性只出现在最后8到10秒。
我们把最后这8到10秒当成了智能的全部
最后还推荐两本书: GEB 和Zen; 其实很好注解了谢赛宁的学术Taste ,我理解,是回到“人”, 为什么要做,为谁做?
离开硅谷是第一步,我想。
参考:
- LeCun《A Path Towards Autonomous Machine Intelligence》、
- 张小珺对谈谢赛宁