即刻App年轻人的同好社区
下载
App内打开
Diiiii
252关注4k被关注12夸夸
Diiiii
1天前
推荐《张小珺商业访谈录》和《晚点聊 LateTalk》最新更新的播客。这两期听下来,对于 GPT o1以及背后的强化学习范式能够建立更好的理解(虽然里面有不少猜测的成分,毕竟 OpenAI 公布的内容太少)。 个人的一些 key learning:

- 关于 scaling law。Scaling Law 可以进一步拆分为 pre-training scaling law post-training scaling law 两个乘数,前者目前遇到了瓶颈(国内的 GPU 租金都开始降价了),而这次 GPT4o 更多是在后者上开出了一片“第二座金矿”,指出未来一个新的优化方向。

- 关于强化学习。强化学习提升推理能力可以分为三个环节(用教中学生搞奥数来举例):prompt(做什么题), 探索方式(如何做题,怎么分步骤,如何总结题型、举一反三等),reward model(做完题后老师如何给反馈)。个人理解,对应到 AlphaGo 上,prompt 对应策略函数 policy-network,决定各个位置的落子概率,探索方式对应蒙特卡洛树,reward model 对应局面评价函数 value-network。

- 关于幻觉。强化学习可以显著降低大模型的幻觉,主要原因有二。第一,现有的预训练模型范式做的是相关性而不是因果性,更多是通过统计概率来计算相关的选项,比如“生病了”和“吃药”之间相关性很高,输出生病了应该吃药;而强化学习是通过探索来得到因果推理,这次生病了之后试试吃药,结果病好了,下次生病了之后试试不吃药,结果病没好,正例+负例的 reward 让模型学会了生病与吃药之间的因果性。第二,之前的预训练模型范式要求模型一次性直接输出结果,且不可撤回,而强化学习的范式支持大量试错,在一定时间内(目前的 preview 模型大概 10-20 秒)可以自我修正。因此,大模型的幻觉在理论上来说应该会更少,对应的是推理阶段的计算开销更大。

- 关于 self-play。吴翼老师认为,本次强化学习的关键在于主动探究的范式,在于 chain-of-thought reflection,而不是自对弈(self-play)的生成能力。(个人的理解是更像是 AlphaGo 而不是 AlphaZero。)自对弈针对有对称性质的任务(例如下棋,例如玩游戏,两个玩家的属性相同)来说格外有效,因为对称的双方可以共同进化,进而不断 push 对手(类似 GAN )。但很多问题不具备对称性质,例如数学(出题和做题并不严格对称),所以未必适用。这样看来,之前所理解的,数学和编程由于其具备标准答案而更适合 self-play 的重要性可能被高估了,这意味着这种方法的通用性更强,更多的垂类都有打开的可能性。相比之下,袁进辉老师则猜测这次模型的进化关键在于 self-play,在数学和编程领域生成了大量 chain-of-thought数据,然后这些生成的数据可能直接用于预训练或continued pre-training,也可能用于 post training 训一个reasoning model / policy network。

- 关于 human in the loop。吴翼老师判断,现阶段的强化学习还是需要 human in the loop,人类的标注还是不可或缺的,只不过标注的量级相比预训练阶段小很多。换句话说,或许通向 AGI 的过程是一个人类参与方式越来越少、越来越精的过程,第一代大模型需要人类提供海量的语料,而到了强化学习阶段,人类可能只需要少许高质量的点评(或许小两个数量级),下一个阶段或许只需要轻轻点拨一下。袁进辉老师甚至认为,这次 4o inference 中的很多思维链其实是人工 rule-based,比如数学中的各种解题方法,编程中的经典算法,比如日常思考中的决策树等等。

- 关于泛化性。吴翼老师举了 ChatGPT RLHF 中使用强化学习的例子,认为在预训练模型足够好、数据足够、反馈合理的前提下,强化学习可以带来很好的泛化效果。(小道消息是 OpenAI 内部也对此很有信心,等 4o 正式版。)因此,或许短期内(2年)由于数据和 knowhow 限制,在某些领域会有一些垂类模型,但长期来看应该还是大一统的模型。

- 关于预期。本次的 4o 只是 preview 版本,可以关注正式版的能力。另外,可以认为 4o 只是强化学习这条路上的 GPT3,是开端,所以要调整预期。最关键的是需要关注其未来的天花板在哪里。

75. 和OpenAI前研究员吴翼解读o1:吹响了开挖第二座金矿的号角

张小珺Jùn|商业访谈录

03
Diiiii
1月前
又一个奥运周期结束了。关于奥运会照例有很多不同的观察角度,本届我觉得有以下几个角度最有趣:

1. 到底什么样的项目应该进入奥运会?

本届奥运会的一大争议就在于项目的改革,增加了不少新的项目(比如霹雳舞、冲浪、攀岩、滑板等等),同时对传统项目也进行了调整(比如大幅度压缩了举重项目的占比,)。另外,对于游泳、跳水等项目的奖牌数量是否过多,也引发了不少讨论。

我个人的理解,决定一个项目能否进入奥运会,应该符合以下几个标准:

a. 是否符合奥林匹克精神。如果从第一性原理出发,奥林匹克精神追求的是人类体能的极限,是“更快、更高、更强”。古希腊的初版奥运会里,设置的项目包括赛跑(短距离和长距离)、跳远、铁饼、标枪、摔角、拳击、赛马等。而有些项目的规则很反人类,比如竞走,似乎追求的是双脚不离地下的最快移动速度;比如马术,比的似乎是马而不是人。另外有些项目连汗都不出,比如射击 - 如果这种能进,那么国际象棋、台球这种也应该能进才对。

另外,和古代奥运会相比,现代奥林匹克精神多了一种对和平的追求,因此,射击、射箭这些运动严格意义上也是不符合和平精神的。

b. 是否有明确公正的竞技标准。有些项目是纯粹的艺术而非体育,比如花样游泳,比如艺术体操,比如霹雳舞。这种项目如果进了奥运会,那么现代舞是否也应该进?唱歌呢?绘画呢?

c. 是否有较为广大的群众基础。奥运会宪章中明确写过,“只有在至少75个国家和4个大洲的男子中,以及在至少40个国家和3个大洲的女子中广泛开展的项目,才可以列入夏季奥运会比赛项目”。这样看来,有几类运动是明确存疑的:第一,传统意义上的贵族运动,比如马术、帆船、击剑等等,这些运动对于大众来说距离太远,规则都搞不懂。第二,有很多运动的地域性比较强,比如(七人制)橄榄球在美国和英联邦国家,比如柔道在日本,这些项目如果能进,那么印度的板球和美日的棒垒球也应该能进才对(实施上棒球和垒球之前是奥运会项目,最近几届取消了)。第三,纯粹意义上的小众项目,除了专业运动员没有人会练的,比如跳水,比如水球,比如皮划艇。上述这三类项目的群众基础,在我看来都是有疑问的。

d. 是否具备较强的观赏价值。毕竟奥运会不是公益,而是一个商业赛事,影响力是至关重要的。类似现代五项、蹦床、射击、射箭这种项目的观赏性非常差,参与感很低,更多就是看一个结果,作为奥运项目的合理性也是值得探讨的。

当然,上述几个标准非常理想化,实际执行中还有一个非常重要的因素,就是大国博弈的政治正确。游泳项目之所以能够占据10%以上的金牌/奖牌比例,很大程度上是大国博弈的结果。所以,在国际体育上的话语权是非常重要的。

-----------------------------------------------------

2. 什么项目的金牌/奖牌含金量最高?

如果从第一性原理的角度出发,最能体现“突破人类体能极限”的运动,含金量最高,例如:100米短跑(陆上速度极限)、50 米自由泳(水中速度极限)、马拉松(耐力极限)、跳高跳远(滞空能力极限)、105 公斤以上级别举重/铅球/铁饼/标枪(力量极限)。

相比田径,游泳比赛的含金量要低一些,主要是因为游泳比赛的项目过多、过碎(泳姿+距离+接力)。菲尔普斯能够在同一届奥运会上拿六枚金牌,身兼数项,更多体现出来的不是菲尔普斯的强大,而是游泳项目设置的不合理性 - 否则为什么没有其他奥运项目的运动员能够同时参加六个项目?另外,从破纪录的次数来看,游泳比赛的破纪录概率远远高于其他项目,也让破纪录显得更为廉价一些。当然,游泳比赛里的 50 米自由泳和 200 米自由泳是最有含金量的,这也让潘展乐这一次的成就显得格外引人瞩目。

在诸多球类运动里,含金量最高的是篮球和网球,因为他们是商业化程度最高、参赛球员水平最高的运动。足球由于年龄限制(要求球员年龄小于 23 岁,每个球队只允许 3 名超龄球员)导致其相当于一个青年锦标赛,高尔夫等运动不允许职业球员参加,排球、羽毛球、乒乓球、曲棍球、水球放在全球来看内的群众基础和商业化程度有限,只有篮球和网球是真正意义上的最高水平。因此,郑钦文拿到的这块金牌确实很有分量(毕竟费德勒都没拿到,小德也是努力到第五次才拿到,成就了金满贯,所以夺冠后才会如此激动)。

-----------------------------------------------------

3. 国人观赛更多关注的是民族自豪感,而不是体育的乐趣。

看奥运会比赛是两种心态的结合:一种是追求体育和竞技的纯粹美感,是“体育迷”的心态;另一种是代入自己的身份认同,是“金牌迷”的心态。(或许还有一种“明星粉”的心态,比如追孙颖莎的,不在讨论之列。)

这两种心态都是正常的,也没有孰高孰低之分。只不过我个人感觉,在过去的很多年里,中国人是压倒性的“金牌迷”,而不是“体育迷”。大家过多地关注金牌榜(甚至都不是奖牌榜),过多地关注夺金运动员,过多地关注中国队有希望夺金的项目。这届奥运会,含金量最高的100 米短跑、马拉松、50 米自由泳、网球男单等项目,以及那些伟大的运动员们 - 比如连续 5 届奥运会摔跤冠军洛佩斯,撑杆跳的历史级别王者杜普兰蒂斯,打破尘封 30 年铅球世界纪录的奥运三冠王克劳瑟,男子体操王冈慎之助 - TA 们在国内媒体上获得的关注寥寥,更多的焦点放在了奥运村没有空调、食堂的伙食不好、王楚钦的球拍被踩断、孙颖莎和陈梦的粉丝互撕、吴燕妮的个人作风这些事情上。不是说这些不应该报道,但四年一次的奥运会,难道不应该更多关注一下人类极限的突破吗?

我们不喜欢被世界其他国家说是“举国体制”,但事实上,现阶段中国的“体育文化”并不发达,真正热爱体育的人并不多,缺乏良好的群众基础和体育基础。中国足球迟迟发展不起来,本质上就是这个原因。本质上,这还是和中国人的经济发展水平以及教育方式有关。只能希望随着 GDP 的提升和文化素养的提升,下一代人里面能够有越来越多的孩子有条件、有时间、有机会去感受和参与体育的美,不仅仅是“金牌迷”,更是真正的“体育迷”。
31
Diiiii
3月前
目前制约大模型的主要瓶颈,还是逻辑推理能力的不足,从这个高考成绩中就能明显地体现出来。用简单粗暴地类比来说,现阶段的大模型确实更像是文科生,而不是理科生。

和雷老板聊这个事情,他认为现有的模型训练方法不适合理科/逻辑推理的训练,主要原因在于文科和理科的答案在空间分布上具有不同的形态。文科的答案分布是稠密而连续的,一句话可以有很多表述方法,稍微更改几个字并不影响其含义,因此 next token 并不存在唯一的解。而理科不一样,一道题的答案有明确的对错,不存在模棱两可的中间地带,因此理科训练的答案分布是离散而稀疏的,是空间中的很多“点解”。这就要求在训练时要给出非常极端的反馈,对于错误答案给出鲜明的惩罚,对于正确答案给出鲜明的奖励,没有灰色区域,不能和稀泥。

除了训练方法之外,另一个问题在于数据的准备。我们在学习理科的时候是有严格顺序的,比如先学加减乘除,再学平方开方,再学解方程。前一步搞定之前,是很难理解后面的。直接让小学生去看微积分,他们很难理解。另外,理科学习对于过程数据的要求会更多。这些对于数据的清洗、整理、投喂的过程都提出了不一样的要求。

再多联想一下,其实人脑在处理文理科问题的时候,调用的原本就是不同的脑区。目前的大语言模型更像是人脑的颞叶,专门用来处理与语言理解、听觉、记忆形成以及情感处理有关的问题。而人脑主要负责处理数学运算(以及触觉、方位感、手眼协调和空间定位)的脑区是顶叶 - 这是一个不同的模型。另外,人脑的枕叶主要负责视觉信息的处理,Tesla 的端到端自动驾驶模型,或许更类似于一个枕叶(+顶叶)的模型。

这样看来,在理科推理能力的训练上,或许要有一些不同的思路。目前 OAI 的思路看似有两个,一是继续大力出奇迹,把参数量、算力堆到x10,看看暴力美学能否搞定。类比人脑,这是在试图把颞叶做暴力进化,看看能否带来功能上的升级。二是为数学、编程这种理科能力单独训练模型,类比人脑,这是要训练一个独立的顶叶模型出来。OAI CTO 前一阵子说,最多一年半,大模型就能从高中生变成博士生,不知道指的是哪条路线。拭目以待。
35
Diiiii
3月前
Taylor Swift 为什么这么火?并且能够火到这个份上,成为全球娱乐明星的独一档?看了一些相关的分析,大都归结于她的某些个人特质,比如有天赋、有才华、有商业头脑、善于经营社交媒体、非常努力、八卦多等等。不可否认这些当然都很重要,但个人感觉,除了这些微观层面上的归因之外,其实还有更为重要的宏观因素。

某种意义上,Taylor Swift 和周杰伦很像,都是各自国家的“最后一位大众流行歌手”。他们都崛起于传统媒介与互联网交接的年代,周杰伦早期的专辑都是用磁带和 CD,之后迅速有了 MP3,而Taylor Swift 的第一张专辑同时用 CD 和数字发行,这让他们既享受了主流媒体(电视、电台等)最后的曝光,也吃到了小众渠道(BBS、百度搜索、MySpace等)最初的红利,拥有了最广泛的 fan base。事实上,后续主流媒体没落之后,“主流艺人”也就跟着消失了(赵本山、郭德纲也都是靠主流媒体火起来的),老人、中年人、年轻人们各玩各的,“全民”级别的歌手艺人也不存在了。因此,个人认为,渠道的变化在很大程度上让内容和 IP 变得愈发碎片化和个性化,“老少皆宜”的爆款已经不复存在,就好像春晚的衰败一样。

这是一个空前割裂的时代。社交媒体的崛起,注定了只有那些拥有鲜明标签的、相对“极端化”的、甚至是有争议的内容,才符合算法的偏爱,而那些想要讨好大众、做“好好先生”的内容是很难被看到的。另外,尽管社交媒体有助于凝聚粉丝的力量,它更善于放大明星的缺点,以及曝光恶意的谣言。因此,在 Facebook 时代很难诞生一个新的 Miss Americana出来。我个人谨慎怀疑,如果 Taylor Swift 2015 年之后出道,假设做的事情都不变,也是没法火到今天这个程度的。

其实类似的现象同样存在于其他行业,比如政治(不再有 Obama、Clinton,只有 Trump Biden),比如影视(没看到有新的现象级演员、艺人出现,火的都是老 IP 的续集,比如漫威)。 以体育为例,各个项目的超级巨星大都是主流媒体时代的产物,无论是乔丹、舒马赫,还是泰森、伍兹。其中有些类似 Taylor Swift 和周杰伦的常青树,崛起于主流时代的余晖之中,一直坚持到了(移动)互联网的时代,进而成为体育届最后的辉煌,比如 C罗、梅西、费德勒、勒布朗詹姆斯这几位,获得了全球最大的曝光和最多的粉丝。至于更年轻的一代,无论是内马尔、姆巴佩,还是库里、德约科维奇,虽然天赋、能力同样出色(甚至有过之而无不及),但总感觉差一口气的样子。

当然,体育最终还是以客观成绩为基础的。随着运动科学的发展,不排除有成绩更好的运动员出现,或许还有下一代天王诞生的机会。这就像是企业家,虽然前社交媒体时代的 Steve Jobs, Bill Gates, Jeff Bezos 们同样符合上述现象,是“最后一代受人尊敬的企业家”,但如果之后的企业家能够做出 Elon Musk 级别的贡献,那么或许也能火出圈。只不过相比于上一代,围绕 Elon Musk 的争议要大得多。

周杰伦已经半退休了,中国前社交媒体时代的“最后主流艺人”已经不复存在。很好奇 Taylor Swift 还能坚持多久,以及美国能否跑出下一个真正意义上的天后出来。

Taylor Swift与财神爷的相同点

31
Diiiii
3月前
大模型的半年总结。2024年即将过半,是一个比较好的半年总结的时间点。还记得今年年初的时候,拾象的@广密 在和@张小珺 的访谈中做出了对大语言模型在 2024 年发展的十大预测,更重要的是给了一个比较好的行业观察框架。如今 2024 年已经过半,是时候把这个框架拿出来做一次半年 Review。当然,Review 的目的并不是看预测得多准,而是看看行业的共识与非共识发生了怎样的变化,以及背后的原因。(另外,个人认为这是个预测的重要性并不相同,最重要的是 Prediction1,6,7。)

Prediction 1:2024 年上半年是 LLM 军备竞赛关键赛点,格局形成后很难再改变。

Yes。目前看起来答案已经日趋明朗,在美国,闭源领域的OpenAI、Anthropic 和 [X.ai](x.ai),开源领域的 LLaMA 和 Mistral(应该算欧洲),这几家之外没有新的玩家入场,后续也很难了。国内的话,除了阿里、百度、字节、腾讯几个大厂之外,月之暗面、智谱、Minimax、百川、零一万物这几家独角兽都还有子弹,也没有新玩家入场。

一个有意思的问题是,闭源和开源的差距究竟是变大了还是缩小了?李广密坚持认为,差距表面上看起来缩小了,但事实上在变大。本质上差距的背后就是赤裸裸的算力,3.5 万张卡训练出来的几个 trillion 的模型,一定会显著好于 1 万张卡训练出来的 1 个 trillion 的 GPT4,只不过 3.5 万卡的集群构建需要的时间比想象中长,所以新模型的亮相时间被延后了。同理,明年会有 10 万张卡的集群,效果依旧会继续提升。

核心问题是:Scaling law 是否继续有效?GPT5 出来之前,我们都看不到实证性的证据。只能说,从大厂们花钱买卡的势头来看,至少他们都相信。

------------------

Prediction 2:数据短缺问题成为模型 bottleneck,合成数据是关键解法。

Not sure. 目前看起来,似乎没有哪家公开宣称数据不够了,但背后究竟是否用了合成数据,用了多少,就不太清楚了。个人倾向于,至少在 GPT5 出来之前,数据的瓶颈并不明显。

------------------

Prediction 3:2024 年会迎来端侧 LLM hype,会有开源模型团队被硬件厂商收购。

Not yet. 苹果的端侧模型比较亮眼,但也没有到 hype 的程度。个人认为端侧模型被高估了,随着大模型成本和 latency 的下降,更好的解决方案就是直接调基础模型。

硬件是个有趣的话题。

------------------

Prediction 4:多模态成为 LLM 在 2024 年的主流叙事。

Yes and No. 这个预测本身比较模糊,什么叫“主流叙事”很难定义清楚。目前来看,图像和视频理解上并没有看到实质性的巨大进步,反倒是 GPT4o 的发布让端到端实时音频的效果有了突破性的进展。3D 生成方面也有一些进展,但距离实用依旧很远。

视觉多模态无疑是主流的研究方向,但正如何恺明前一段在 MIT 所说的,在基础的科研层面上,尚未找到有效的 representation 和 embedding 的有效方法,能够让 self-supervise 运转起来。而 3D 方面,高质量数据的缺乏依旧是最大的困扰。

------------------

Prediction 5:视频生成会在 2024 年迎来“ChatGPT 时刻”。

Not yet。Sora 最初的惊艳之后始终保持低调,其他一些视觉生成模型也陆续发布,证明视频生成的门槛并不高。更重要的是,视频生成的可控性,在现阶段还无法达到生产环节所需要的要求,商业价值还较为有限,更像是一个玩具。个人感觉距离 ChatGPT 时刻还有相当的距离。

------------------

Prediction 6:新摩尔定律会解锁更多新应用的可能性,LLM-Native App 会在未来 6-12 个月迎来大规模爆发。

Not yet。这其实是最为重要的预测之一,但目前看来并未发生。目前 C 端的 LLM-Native App 依旧是 ChatGPT(月访问次数 2.6b,日活过亿?) 和 [Character.ai](character.ai) (DAU 600 万,估值小几个 billion),并且用户量相比半年前并没有显著增长。Midjourney,Suno 之类的 GenAI 应用也是一样。另外,GPTs 也是半死不活。

相比之下,C 端状况似乎比较好的是 Perplexity(2000 万 MAU,ARR 2000 万,估值 3b) - 我个人基本上已经用 Perplexity 取代了 Google。另外,教育类的几个应用(比如 answer.ai, 字节的 Gauth 和 作业帮的 [Question.AI](question.ai) 等)在北美都有了几万或十几万的 DAU 以及几十万美元的月营收,但这似乎更应当归类为“教育产品出海”而不是 GenAI。

个人认为,C 端的试错成本相对较低而迭代较快,因此如果有靠谱的想法,在 GPT4 已经发布5 个季度之后的今天,该尝试的都已经被试过了。至少目前来看,有一些“前人没想到”的爆款应用的概率已经越来越低了。

------------------

Prediction 7:2024 年,亿级 ARR 产品将批量出现,更多公司 5% 以上的收入贡献将来自 AI。

Not yet。和 Prediction6 一样,这是最为重要的预测之一,目前看来,真正达到亿级 ARR 的产品只有 GitHub Copilot(猜测ARR在 2亿美元左右),或许再加上微软的 M365 Copilot(目标是去年 Q3 到今年 Q2 结束时累计收入达到 1billion,实际肯定没完成)。二级市场的 SaaS 企业们,例如 Salesforce,ServiceNow,Workday 等等,AI 产品的路线图已经画了几个季度,但都迟迟不敢公布 AI 的实际营收贡献(猜测都不到 1%),继而引发了 SaaS 被 AI 颠覆的新叙事以及 SaaS 股票的估值新低。大家最看好的客服、营销等场景,

一级市场的融资也在下降。除了基础模型公司(例如 x.ai)之外,B 端应用层的企业只有Devin, Heygen等个别的企业拿到了大额的新融资。真正规模化的、ARR 超过 10m 的企业屈指可数。大多数企业都还在讲故事以及寻找 PMF 的阶段。

有趣的是,OpenAI 上周公布的 ARR 达到了 34 亿美元,猜测其中 80%都是B 端 API 的收入,再加上微软的分成和微软 Azure OpenAI API 的收入,估计有 50 亿美元以上的ARR,占到 SaaS 上市企业年收入的 1%。这些钱到底是谁花了?我个人的理解,其实这一波 GenAI 大企业还不太敢用,因为幻觉、合规、数据隐私、推理能力弱等问题,落地场景有限且周期过长,而 C 端用户大都是尝鲜,没有找到太多的付费点(除了学习类的刚需)。真正给 OpenAI API 付费的或许并不是少数“亿级 ARR”的大单品,而是广泛的中小企业和 Prosumer 群体,他们有生产力提效的需求,有一定的技术能力(至少会调用 API和写 prompt),且对幻觉的容忍度较高(大不了多试几次,有错自己改改就行了),在翻译、写作、素材生成、简单问答、文档总结、代码建议等场景下,直接调用 OpenAI 的 API 或者 间接使用套壳工具(比如沉浸式翻译、Monica、ChatPDF)就够了。因此,这一波AIaaS的形态是广撒网的长尾分布,缺乏头部效应。

在最近的这次访谈中,李广密认为,随着成本的下降会开启企业级应用的机会,例如可以大规模地尝试 RAG 检索。个人对此不是很乐观,因为目前 PMF 没找到,核心问题并不是成本高,而是推理能力不够,导致只能解决一些痒点而不是痛点。成本问题是找到 PMF 之后大范围推广阶段的关键问题。

------------------

Prediction 8:2024 是布局 Data Center 的重要时机,算力、Cooling 以及互联等环节均存在机遇。

不懂,只知道相关的能源类股票涨得不错。

------------------

Prediction 9:围绕 LLM 将发生一起具有影响力的网络安全事故。

Not yet。个人理解,这是因为LLM 的渗透率低于预期,所以还没来得及出事。

------------------

Prediction 10:具身智能还需 1-2 年才能真正迎来突破。

Yes。虽然不少具身智能公司都拿到了大额融资,但更多还是在产品 demo 阶段,在数据获取、技术路线等方面尚未形成行业共识,更不用说实际效果。因此,具身智能看起来还有较长的路要走。

当然,如果将自动驾驶也理解为广义的具身智能,那么 FSD 的实际进展是超预期的。它可能会成为第一个迎来真正突破的领域。

------------------

总的来说,我认为拾象的这10个预测是不错的思考框架,问了一些很 valid 的问题。和以往历次的技术创新一样,在早期很容易导致泡沫和高估,AI 也不例外。按照 Gartner 曲线来看,目前可能处于第一个 Hype 的顶点。

个人对 AI 的长期发展还是十分乐观的,但同时也承认现有 GPT4 的天花板效应也非常明显。Again,类比互联网时代,现在很像是 2008、09 年,当时 iPhone 已经被发明一年了,甚至 AppStore 也上线了,但网络环境只是 2G,依旧只有汤姆猫、切水果这些应用可以用。因此,最关键的 Prediction 是 Scaling Law 能否继续,何时能够突破 GPT4 的天花板,让推理能力有 meaningful 的进化。

新摩尔时代:拾象 2024 LLM 猜想

013
Diiiii
3月前
关于自动驾驶的播客中质量较高的一期,主要原因是嘉宾中有一位来自 Tesla FSD 团队的工程师,并且已经呆了 7 年,给出了很多有价值的第一手信息。一些 takeaways:

1. 关于端到端的价值:端到端最重要的价值是通过去掉人工定义的接口,让自动驾驶更加 scalable 。华为自动驾驶有六千个工程师,主要用来写各种规则,因为 rule-based 环境太复杂,总有新的 task 出现。真正的端到端的系统中,不需要人为定义这些 task。这也是为什么现在 FSD v12 可以做到每周更新。 (一个比较有意思的问题是,如果真的是端到端,那么车机上显式的视觉效果图是哪里来的?它的显示和真正模型的感知、决策是否 align?)

这种可泛化的 Scaling Law 大幅度降低了 Tesla 的成本。对比之下,Waymo 以及国内的竞品的成本要高得多,每开一个新城都要用自己的车队去铺,100 辆车*100 万人民币,再加上 operation cost,就是一个城市一个亿人民币,从商业模式来看不划算。

2. 关于算法的先进性:Tesla 的端到端在算法层面还是有独家秘籍的。相对于 OpenAI 的基本上透明化的架构,Tesla FSD 的算法和架构可能 70%-80% 都没有公开(之前每年的 AI Day 说得太多,现在索性停办了),算法上有较大的领先性。端到端和之前 rule - base 差异很大,上了端到端之后,团队变动也很大,Tesla 之前负责 planning control 的负责人就离职了。之前 Tesla 一直不愿意向中国团队开放代码阅读权限,上了端到端之后,已经不需要国内工程师了,国内只需要标注即可。

3. 关于软硬结合。Tesla 的另一个牛逼之处在于软硬结合,用 100TPS 低算力的自研芯片和硬件配套就可以完成其他公司用 1000TPS 的芯片也完成不了的任务。Tesla FSD v12 现在能够在 2018 年的HW3.0 硬件上丝滑地跑起来。硬件的低成本也给Tesla 带来了很大的渗透率和数据优势,相对于其他车企的智能配件都是选装的,Tesla 的智能配件是全部预装好的,也就是说每一辆车都可以用来收集数据。

4. 马斯克的价值。在 Tesla ,端到端的思想并不是 Musk 提出来的,而是自下而上提出来的。但马斯克的价值在于,他直接管理智能驾驶团队,深入了解一线技术,因此敢拍板做决策,并且亲自承担责任。到目前为止,他没有在技术 vision 层面上犯过大的错误,但在具体时间线的估计上常常比较激进,一方面是性格上过于乐观,另一方面也是团队管理的需要,同时给内部人才画饼和压力。

5. 纯视觉是唯一的路径吗?Tesla 如果当年保留了激光雷达,那么可能会造成工程师过于依赖激光雷达。只有极端地砍掉激光雷达,才能逼着团队在纯视觉的路线上做技术攻关。如果当年不这么做,那么 Tesla 的地位一定不如现在。之后会不会加激光雷达?没有给出明确答案。

6. 如何从 L2 L4?最重要的是大模型本身的演进,这也是 Tesla 专注的方向。一方面是积累更多数据来解决 corner case。过去几个月是FSD 第一次的大范围部署,包括北美全境, 也包括夏威夷和阿拉斯加,180 多万辆的车具备这样的功能,100 万辆下载了,尝试了。除此之外,一些其他路径也会有帮助,比如更加细致的导航地图,比如针对具体区域路径的微调,比如运营。后面这几个 Tesla 还没有开始做。

7. 关于 FSD 入华:中国的路况复杂度是美国的 10 倍,但好处是统一市场准入,并且在中国这种hard级别的路况搞定之后,全球其他地方都能搞定。之前没做中国,最重要的是因为搞不定数据合规问题,现在通过数据脱敏搞定了。今年政策上有很大利好,国内从总理级别开始明确支持 FSD 入华,接下来只需要把欠账补一下,把 intra 数据采集、标注、finetune 这一套从零到一走一遍,以 Tom Zhu 的执行力应该没啥问题。

8. 关于 RoboTaxi 揭幕,大概率是硬件的 unveil,把车子展示一下,从亮相到量产可能还需要十几到几十个月。由于法规限制和供应链复用等考虑,车型的设计不会太极端。

总之,从各位嘉宾的反馈来看,端到端路线能走多远、能否商业化落地,都还没有形成共识。我个人的感觉是,方向是清晰的,但道路是曲折的。

E156|自动驾驶领域的GPT时刻来了?聊聊特斯拉V12、FSD入华与RoboTaxi

硅谷101

621
Diiiii
3月前
这期播客阐述了一些真格对 GenAI 投资上的逻辑和观点,包括一些“非共识”。比较有趣的几个点:

1. @yusen 认为,这一波 GenAI 在“全自动”、“通用性”和“具身性” 这三个点上都被高估了,换句话说,现阶段真格更愿意投资那些辅助性(半人工)的、数字化(不涉及物理世界)的、领域专用(而非泛化)的GenAI Deal。

- autopilot 被高估了,copilot 更实际一些。现阶段在生产环境对可靠性和可解释性的要求,导致必须有human in the loop,用 copilot 的模式给 AI 指导监督,同时提供反馈数据;

- general 通用性和泛化性被高估了,specialized 更实际一些。领域专用的 AI 应用会比通用的 AI 应用更早落地;

- physical 具身智能被高估了,digital 更实际一些。具身智能在科研上还有大量的难题没有被解决,参考自动驾驶,从 2004 年的 DARPA 挑战赛到现在,花了足足 20 年的时间,但 L2 的 FSD 还没彻底落地。因此,真实世界中的挑战远比想象中更大。(个人比较赞同,但不少投资人都很中意通用/人型机器人,详见暗涌的文章《当月之暗面和MiniMax的投资人坐在一起》。)

2. 认为当下的 AI 一定有泡沫,但关键是泡沫下的啤酒有多少。泡沫未必有害,从历史上来看,泡沫会催生大量的基建,这些基建在当时是冗余的,但在之后会派上用场。另外,泡沫时代浪大鱼也大,伟大的公司都是泡沫时代的剩者。

3. 很多人都将 AI 与移动互联网的发展进行类比和印证,但二者的区别在哪里?yusen 认为,相比移动互联网人人都能做 App,AI 时代技术的限制更多;AI 时代,缺少新硬件导致纯软件很难建立壁垒,对创业公司的挑战更大(而移动互联网时代,智能手机对所有人来说都是新事物,起跑线是相同的);AI 时代创业的资本投入更大;AI 时代的模型是阶梯型创新,而移动互联网的基建是连续性创新,等等。

换句话说,假如硬要类比移动互联网,最简单粗暴的问题其实是:4G 什么时候来?没有 4G 的普及,那么抖音、滴滴、美团外卖、微信支付、拼多多的故事大都不成立,投再多的钱和再牛的创始人也没用,移动互联网或许只有微信和今日头条能跑出来,结果会是一个远远不够 sexy 的时代。

所以,GPT5 到底啥时候来?能达到预期么?

戴雨森:拥抱时代、乐观和年轻人的力量|串台AI科技评论Talk

此话当真

110
Diiiii
4月前
Google 的野心是想做 AI 时代的苹果?Ben Thompson 在最新一期的 Stratechery 里探讨了 AI 时代的开放与封闭战略,以及各个大厂的选择,尤其是 Google。他首先回顾了 PC 与手机时代的竞争,认为所谓的“开放 / 标准化 / 模块化战略”只会带来平庸的产品(尽管生产成本会下降,但体验的下降更大),比如 PC,比如安卓手机,而“封闭战略 / 垂直整合” 从结果来看是更好的战略,因为在设计上自由度更大,最终产品的体验更好,导致用户愿意为之支付溢价,比如 Mac 和 iPhone。

接下来的部分比较有意思。各个巨头反思了自己在前两个时代的战略之后,在 AI 时代做出了完全不同的选择。

Google 坚决向全栈的封闭系统转型,从最底层芯片就开始做自己的 TPU,之后的Cloud Infra(Google Cloud)、Model(Gemini)、Platform(Vertex)、Apps(Google Apps)都牢牢地攥在手里。从 Gemini 1.5 的 2m tokens 来看,已经隐隐有后来居上的趋势。(文中没有提,其实 Tesla 也是类似的,从芯片到应用,是一个彻底封闭的生态。)

Google 为什么要这么做?在智能手机时代,Google 的 Pixel 并没有获得 iPhone 式的成功,而它的 Android 作为“开源”的 OS,尽管份额很大,但反垄断的威胁让 Google Assistant、Google Maps 等等应用在 Android 端的渗透率和利润远低于 iOS 上的 Siri、Apple Maps 全家桶。Google 甚至每年需要交上百亿美元的“苹果税”来保证自己在 Safari 里默认搜索引擎的位置。这让 Pichai 铁了心不要重蹈覆辙,而是要做 AI 时代的 Apple。

对 Google 来说,新的 AI 能力可能带来颠覆苹果的一个绝佳机会(Moonshot),或者说是移动设备的一次范式转变。尽管缺乏硬件相关的设计制造营销能力(这是 Google 野心里最大的风险之一,另一个风险就是对搜索引擎现有商业模式的破坏),但如果能够提供从芯片到应用的完全无缝的 AI 体验,或许有可能让 Google 的移动设备起死回生,甚至取代苹果成为下一代时代的用户界面。这不,Google 在组织架构上已经有所动作。Pichai 在 4 月份的 Blog 上宣布,把 platforms teams 和 devices teams 进行整合,或许就是一个强烈的信号。

相比 Google,Amazon 则处于另一个极端,它非常开放,使用 Nvidia 的芯片,没有自己的模型,而是通过 Bedrock 允许客户使用任何模型。Amazon 的基础假设是,AI 价值链中的一切最终都将是模块化和商品化的,只有数据引力才会起到最重要的作用。所以,只要把用户数据攥在手里就够了。

至于 Meta 和 Microsoft 则处于中间状态,至少在芯片层都受制于 Nvidia。尤其是 Microsoft ,在关键的模型层完全依赖于 OpenAI。Ben Thompson 调侃道,去年10 月 Nadella 还在大吹特吹微软如何围绕 OpenAI 来提供全栈式服务,把模型的杠杆用到了极致,结果 1 个月之后就被 OpenAI 的宫斗打脸了。这让微软意识到 “将战略建立在与一个无法控制的合作伙伴整合上是非常危险的”。此后微软开始做了不少切割的工作,像 Amazon 一样允许客户使用第三方平台,并且开始重新启动自研。这也是不得已的选择。

在文章的最后,Ben Thompson 提出了自己的观点,他更倾向于开放而不是封闭,认为最终模型层的差异不会太大。换句话说,他认为 Google 的大一统野心很难实现。

原文:stratechery.com
210
Diiiii
4月前
很喜欢田渊栋的这个访谈。具体观点不谈,最打动我的是他的独立思考精神,不跟风、不亦步亦趋的风格。这并不是刻意的特立独行,而是一种探究世界的原始好奇心。在我看来,这才是人类最值得尊敬的品质。

引用几句原文:

“我是非主流bet,但这没关系。硅谷其实没有什么主流、非主流之分,因为每个人都会有自己的方法,并不是所有人都要学OpenAI,也许下一次科技革命的驱动就是从这些非主流开始的... 如果你想做得很好的话,一定要有自己的bet。如果你不make a bet,你能做的就是follow other people,很难走得更远。有Bet的好处在于,你可以一辈子一直走下去,人生不会觉得无聊... 我惊讶于他们 (OpenAI) 做得挺好,可能会适当调整下自己的策略,但是我依然认为自己是正确的。”

“最终的结局应该是,每个人都找到独一无二的方式去探索世界。人人都‘为五斗米折腰’的结果就是,所有人都有同质化倾向,这对未来发展不利。你跟硅谷的人聊会发现,他们不知道害怕,觉得‘我就是要上’、‘我就是要搞事情’。比如Ilya在谷歌已经很牛X了,但他还是离开Google,白手起家,这都是信念驱动的... 当你‘求生存’的时候,所有人都会想怎么赚钱,怎么找到保守的最佳路径,最后的结果就是大家都很同质化,但是未来世界不需要这些。每个人都应该有勇气去走一条别人没走过路,把这条路上的风雨分享给别人。别人有再多经验,都不是你的经验。这个世界总有一部分人会渴求自己尚未见过的世界,那些都是AI生成不了的,或AI没有足够的数据实现的。”

有胆识、有能力去建立自己的“非共识”,真的是一件迷人的事情。正如 Peter Thiel 的那个最著名的问题:What important truth do very few people agree with you on?

甲小姐对话田渊栋:Scaling law代表一个非常悲观的未来|甲子光年

05
Diiiii
4月前
上海的生育率跌到了令人发指的0.6,又引起了不少讨论。大家都在感叹人口问题有多严峻,但我个人其实最好奇的是,为什么计划生育政策延续了这么多年?为什么不早点取消?

国内似乎没有太多与此相关的讨论,兽楼处之前写过一篇被封了,最近又解封了。去简单 Google 了下,初步看下来,似乎有学术界一言堂的问题。中国的人口政策是由这些“人口学家”们来把持的,人口学这个专业的开山鼻祖就是宋健,之后演变成了学阀,徒子徒孙们都不敢大逆不道。直到 2003 年以后学术界才开始出现零星的反面意见,到 2010 年才有初步证据。全面放开二胎政策是 2015 年出台的,找到一篇 2013 年路透的文章,可以看到当时学术界还没有形成共识,支持和反对的声音还是难分伯仲。当然,公平地说,也不能都归咎于一两个人,毕竟做这种长期的估计还是非常困难的。我个人理解是,在早年建模过程中的假设出了比较大的问题,尤其是没有考虑到多年的计划生育政策和激烈的竞争环境对生育意愿的压抑。之前的假设是,如果政策放开了,人口能够快速回升,但这里高估了生育意愿的弹性。

最终生育率 = 生育意愿(理想子女数) * 生育实现率(实际执行率)。中国最大的问题在于,生育意愿在这些年下降得太狠了。这可以从下图中看到,1995-2003 年出生的女生,“理想子女数”才只有 1.3,天花板就只有这么低... 相比之下,即便是韩国,至少人家还是想生的,“理想子女数”接近 2.5...

人口是个慢变量,有很强的后置属性。猜测建模、统计和跟踪的时候没有考虑到这些前置指标,或者至少没有放在足够的优先级上,以致于当发现最终结果出了问题之后,已经来不及了。

除了学术原因之外,计划生育部门的既得利益者们应该也会施加很大的阻力。但最主要的问题还是学术界的认知问题,以及政策的惯性问题。

总之,40 年前顶层设计的人口战略,如何逐渐过时,为什么没有被及时纠偏,其实是非常值得反思与复盘的。遗憾的是这方面的关注和讨论还是太少了。

相关链接:
《兽爷丨反对者的四十年》:mp.weixin.qq.com

《A New Low—上海户籍人口生育数据》:mp.weixin.qq.com

《各国生育率都在下降,但是为什么东亚降到全球最低?|於嘉 一席第1043位讲者》: mp.weixin.qq.com

《梁建章:人口经济学十五讲》:mp.weixin.qq.com
1025