即刻App年轻人的同好社区
下载
App内打开
Dachein大澄
315关注1k被关注3夸夸
产品,四季四地
意义,始终“缺席”
vx:seanxshb
Dachein大澄
01:10
Agent 做产品,就是需要让 Agent 自己反馈开发 agents,但我居然在他们之间复制粘贴传话

我得给他们都弄个邮件系统
20
Dachein大澄
00:54
新鲜小玩具【活字】
Markdown HTML 发布 SKill

【源起】
源起 1: 我让 discord Agents 写的材料 都会用 html + 临时Tunnel 开给我
源起 2: 在微信里同事用 AI Markdown 打开非常难读,而且更重要的是人均开始 Agents 群里已经开始 html 文件了,但是怎么看呢

索性我就写了给 Agents 发布 html Markdown 给人,尤其是移动端的 看的 skill

- Agent写 md 或者 html 直接发 url给人看
- 支持版本管理
- 支持加密阅读
- 支持开源自主 CloudFlare 部署单机版

【如何安装】
复制第一个回复内容

活字 Huozi — 以文载道,活字为器

10
Dachein大澄
2天前
前几天听@张小珺 对谢赛宁的7小时的访谈,很柔软很干净很好听。

于是我去读了JEPA那篇论文,试图理解他们定义的问题。

谢赛宁说:"Silicon Valley is very LLM-pilled." 于是他与Yann 共同创立 AMI Labs 。并且选择了纽约。

25人,35亿美元。方向是:World Model。我想他是敢于正视 LLM 显而易见的不足,不装睡,且主动定义问题的。

一、World Model 是什么?

更具体说AMI定义的(区别于李飞飞的)World Model 就是让机器学习"世界怎么运作"

LeCun 给了一个公式:
World Model = f(st, at) → st+1

就是:给定现在的状态,加上一个动作,预测接下来会发生什么。

不是预测下一个词,不是预测下一个像素,而是预测"世界接下来变成什么样"。

婴儿不需要知道"重力是9.8",他只需要知道"松手东西会掉"。这个"做 A 会导致 B"的直觉,就是 World Model 要建模的东西。 World 是一个目标,不仅是一种方法

于是我就顺藤摸瓜,翻来了LeCun的《A Path Towards Autonomous Machine Intelligence》, 提供了一个框架:JEPA

二、JEPA:如何在表征空间里预测

如果让 AI 直接预测像素画面,风吹树叶的每一帧都不同,模型会学到崩溃。

JEPA 的做法是:先压缩,再预测。把真实世界的画面压缩成一个抽象的"表征空间",然后在这个空间里做预测。这样风吹树叶的随机细节会被丢弃,留下的是"物体有惯性"这种本质规律。

JEPA 还引入了"潜在变量 z"——同一个起点,可以通向很多种合理的未来。现实不是单线的,是多叉的。

还有一点:Mode-2 的规划,本质是"满意化"而非"最优化"。

人类不是找到最优解才行动,而是"差不多够好"就行动。AI 也是如此——找到第一个满足 Cost 阈值的方案就停了,不是穷举所有路径。

H-JEPA:层次化的好处

单个 JEPA 只能做短期的单步预测。H-JEPA 把多个 JEPA 叠起来——高层预测长期的抽象趋势,低层预测短期的具体动作。

这个设计有认知科学依据:婴儿4个月大时才建立"物体恒存性"——知道东西掉到地上不会消失。这种高层抽象概念,是在更具体的感知经验之后才建立的。

但有个隐患:层次越高,"噪音压缩"越厉害。 不同文化的 World Model,高层表征可能会变得不可通约——两个系统说不到一起去了。

三、为什么高维表征很重要?

这里有一个更基础的问题:为什么仅靠语言不够?

LLM 处理的是 token 序列。每一个 token 是离散的、压缩的符号——它可以是"重力"、"疼痛"或"谈判",但每个词指向的那个真实的因果关系,并没有被建模。

举一个具体的例子:LLM 输出"松手东西会掉",这五个字在语言层面完全正确。但婴儿在真实世界里摔过一千次建立的因果直觉,和这五个字的关联,是完全不同的两件事。

第一,语言是对现实的压缩映射。 现实是连续的,语言是离散的。把"力度、温度、角度"压缩成"重力"两个字,必然丢失精度。

第二,语言只擅长处理已经被语言捕获的知识。 那些从未被写进文本的因果——液体表面张力的细微变化,人对权力距离的直觉——LLM 完全无法触及。不是数据不够,而是这些信号从来没有上传过。

第三,语言是推理的终点,不是起点。 我们用语言描述世界,但语言本身不能替代对世界的体验。菜单不是饭,地图不是疆土。

四、我尝试把世界难题的三层结构

把"难题"分层,会更清晰:

第一种 :物理世界的隐性规则

有些规则客观存在,但从未被语言精确描述——"这东西会滚"、"那东西会碎"。婴儿通过反复行动直觉到这些,高维表征可以在某种程度上捕捉它们。

第二种:符号建构的社会现实

有些领域,规则本身就是语言建构的——合规审查、地缘政治分析、法律解释。它们没有物理对应物,"真相"就是规则本身的表述。

当 LLM 开始决定什么叫"合规",它就参与了规则解释权的分配。这和"法律解释权"的问题一脉相承——法律的意义由文字表达决定(拉丁文 ipsissima verba),LLM 正在接过这个权力。

第三种:介于两者之间

金融市场是典型的灰色地带——有物理世界的资金流动,但每笔交易背后都是语言建构的预期和叙事。语言信号和物理信号交织,分不清谁是因谁是果。

但这里有个深层问题:社会现实的建构,本质上是语言性的。

五、语言不仅是接口,也是建构性元素

谢赛宁在访谈里说,LLM 应该是智能的 interface,不是全部。 我非常同意, 但是从这两年实践来看, 我以为语言不仅如此,

在人类世界里,语言毫无疑问是人与人之间、人与 agents 之间最核心的接口。但问题在于:有些领域里,语言不只是"怎么描述事物",而是事物本身的一部分。

福柯的视角来看,权力不只是压制性的,它还具有生产性——它生产"真理",生产"合规",生产"正常"。这些判断一旦被语言确认,就成了社会事实。你无法绕过语言去观察"真正的合规性",因为合规性本身就是被语言建构的。

这和物理世界本质不同:重力不因为我们怎么称呼它而改变。但"合法"与"违法",一旦被法院判决确认,就成了真实的社会约束。

所以在社会世界里,高维表征能做的,不是"绕过语言建模",而是:

- 更好地建模语言背后的人际关系和权力结构
- 更准确地捕捉话语实践中的权力不对称
- 更深入地理解特定 discourse 里的规则如何被建构

这不是在捕捉"社会真相",而是在建模"语言建构的社会现实如何运作"。这本身已经是有意义的工作——虽然不是万能的。

六、AGI开放问题:缺的那几层楼梯

我以为JEPA 不是抛弃LLM以及多模态,而是以此为脚手架,试图走的更远,我试图理解 ,

第一层:做事 —— 从LLM/JEPA 都能做,且可以更好
第二层:反思目标和质疑框架,LLM不行,JEPA似乎也没这个入口
第三层:前语言的视觉/身体, 反复提到vision,可能是正确入口

每一层需要的不是同一类技术——做第二层需要某种形式的反身性或者元认知;第三层需要的可能是具身性(embodiment)和主动探索信号的架构。

为什么"反思和质疑"这个层次,很重要

我理解的 JEPA 和 LLM 都在优化一个给定的目标函数。区别只在于:JEPA 优化的是"预测误差",LLM 优化的是"下一个 token 的概率"。

两者都没有能力问:"我设定的这个目标,是对的吗?"

这就是"反思"的缺口——不是不知道怎么做,而是不知道该不该做现在在做的事。

人类有这个能力:我们可以停下来问自己"我是不是在做一件蠢事?"然后改变目标。AI 没有这个能力——它的目标函数是固定的,不会自我质疑。

更技术地说:JEPA 的 latent variable z 只建模"路径的不确定性",不建模"目标本身的对错"。而 Configurator 调制所有模块,但谁来调制 Configurator?每一层控制之上还需要更高层,没有终点——这是递归问题,无法在架构内部解决。

最诚实的路径也许是:让 AI 在人与人的对话和批判性互动中,被外部视角持续质疑和修正。

以及 World Model 面临的最深层问题,不是"怎么做",而是"为谁做"。

如果一个系统在设计时就已经预设了"什么是重要的、什么是噪音",那它永远无法质疑这个预设本身。

七 关于LLM和AGI的关系,

我赞同LeCun的关系

谢赛宁有一个更形象的类比:如果把5.38亿年的寒武纪压缩成一天,语言、抽象思维、行为现代性只出现在最后8到10秒。

我们把最后这8到10秒当成了智能的全部

最后还推荐两本书: GEB 和Zen; 其实很好注解了谢赛宁的学术Taste ,我理解,是回到“人”, 为什么要做,为谁做?

离开硅谷是第一步,我想。

参考:
- LeCun《A Path Towards Autonomous Machine Intelligence》、
- 张小珺对谈谢赛宁

133. 对谢赛宁的7小时马拉松访谈:世界模型、逃出硅谷、AMI Labs、两次拒绝Ilya、杨立昆、李飞飞和42

张小珺Jùn|商业访谈录

00
Dachein大澄
3天前
and 语言是鸦片/毒药,是shortcut,
01:41
10
Dachein大澄
5天前
只有我有感觉么, 其实 opus4.6 已经开始降智了
51
Dachein大澄
7天前
其实 Linear 完全就可以 用一个 CF KV + Worker
15 分钟来替代
00
Dachein大澄
8天前
前天 Trump 被问到 轰炸伊朗基础设施的合法性在哪里, 他用了一个词:Animal

我倒是觉得他说的是实话,精确的说,是真那么想的 ,那么信的,因为从五月花号到达那一天,就在新教/天主教/异教徒/Animals 这个逻辑上自洽了

昨天 Citrini 的小作文报告,网内小火,我在 TMTB 群里看到很冷淡,Burry substack 有专门提到,也是讨论不多,所以我觉得即使像他这样 相信 Oman Iran 可以低调务实的重建的一手观察, 还不能被市场大部分Price IN ,本质上不能被 Value IN

今天 IRGC 说了数, 1400 万(约1/7),我是愿意选择相信的 ,或者说更希望,波斯人可以成为下一个回到正统的 小中华, 千年的智慧不会稀碎, 文明可以多极;这个东西在今天珍贵的像像童话, 以至于在一个文明挣扎与抗争,都会被整个市场的“理性鬼”简化成 一个经济博弈

包括身边那些许人, 只认识 WTI Brent ,但是忘记了自己的账面,是怎样的牺牲和童话换来的。

Dachein大澄: 法律面前人人平等的 ,主权运作逻辑是,判定谁在法律面前 不是人

11
Dachein大澄
8天前
你记住一个人不是因为你有他
的档案(Node),是因为你记得他做了什么(edges)
00
Dachein大澄
10天前
法律面前人人平等的 ,主权运作逻辑是,判定谁在法律面前 不是人
02
Dachein大澄
11天前
杭州人游西湖 曲苑风荷

图1 故宫博物院 宋画 叶肖严的西湖十景图
图2 今日曲院风荷 三号门 入门 风荷区主景,50年前的作品,至今还是经典样本,就像走进老四季 老君悦一样不会错, 坐蓼汀廊细品来,远中近,隐匿的风徽,半遮面的迎薰;也是事实上中国当代公园的样本;借的是郭庄,借的是整个西湖,一样的一池三山,也是致敬汉武帝太液池

- 曲苑, 原“麯院” ,即南宋时期的皇家酒坊所在,选址金沙涧入湖口
- 旧称,麯院荷风 ,主景是风是香; 只是借的荷,酒香/荷香随风而送, 在风荷区,迎薰/风徽/波香 都围绕这个风和香 展开
- 乾隆改风为荷,说是笔误(图3),还是避酒;但今园中还借着,曲水流觴,这个借古兰亭之会,立了个“觞咏亭”,特别适合夜访, 当然我更喜欢的意向:九里松旁的酒曲, 逆水金沙涧,一路酒场道场的景
00