即刻App年轻人的同好社区
下载
App内打开
全速前进W
56关注20被关注0夸夸
be less wrong
全速前进W
2天前
英伟达市值五万亿美元,mark一下

全速前进W: 然后展开一下关于认识scaling law的思考:核心是一切以计算为中心(compute-centric),主要两个层面(以后更新在小红书,id:全速前进) 1)算力的大盘快速增加: 整个市场上的可用算力(FLOPs)一定会越来越多(粗略理解为英伟达每年的GPU出货量 * 平均块GPU的算力 * 计算集群的上线率),算力的大盘正在快速增加,按马斯克的估计,可用算力正在以每半年10x的速度增长(不知道他怎么算的,但是这个速度有点夸张吧…),现在每年英伟达出货几百万块GPGPU,量只增不减。Less Wrong最近一篇分析到25年底,会有等效1240万张H100的等效算力 2)算力的分布结构会不断变化 A-从训练-推理的角度看: - GPT1到4的的时代,自监督的预训练吃了最多的算力(99%),o1开始,以强化学习为核心的的后训练+深度推理逐渐的占比逐渐达到甚至在未来可能超过预训练的水平,合成数据(其实是推理的一种)也要吃掉很多算力,算力分配占比已经发生重大变化了 - 现在推理深度依然不够,思考时长分钟级别(大概几千token的量),按Noam Brown的说法,AI应该能做更长、更深的推理,推理一小时、一天、一周、甚至一个月,这个级别的深度思考可以证明数学猜想、发明新药、发明工程技术,而不仅仅是做题 So,推理这条线上还在早期。推理这块还可以再细分,muti-model + muti agent 复杂推理(据传GPT-5会有?) - 未来continuous learning、实时学习、持续学习实现后,scaling law又会是什么?现在的LLM都是静态的,也就是说花两三个月训练完以后权重就不变了,所以现在GPT-4o的知识截断还是23年11月,显然人类在这个层面功能更完备,因为人每时每刻都在同时推理+学习,Richard Sutton(就是写bitter lesson的那位)最近在喊这个方向(参见Loss of plasticity in deep continual learning 这篇paper),也有人说GPT-5在这个方向也会有改进,希望是真的 B 从信息模态的角度讲 现在处理自然语言的token吃了最多的算力,未来是不是会转移更多到多模态token的处理上?视频、音频、行动、even more。可能现在只有<10%的算力在做多模态,未来这个比例将如何变化,具体以一种什么形式呈现? C. 从AI的应用场景角度讲 1. 自动驾驶的scaling law:Tesla目前在这个领域遥遥领先 2023:千卡H100->FSD V12 2024:万卡H100->FSD V12.5, 2025:10万卡H100->FSD V13,现在正在进行中 未来数近百万B/H卡-> V14/RoboTaxi规模化落地(2027E+),衡量的指标就是(miles between intervention)我们大概会在这个时候看到完全达到/超过人类水平的自动驾驶,背后是百万卡算力支持 2. 机器人scaling law:数字世界的scaling law已经为人熟知,物理世界、具身智能的scaling law之后如何显现?现在机器人scaling law根本就还没起量,现在给具身智能分配的算力可能只是 <1%? 3. 推荐系统scaling law:更大的模型+更多数据 = 更好的推荐效果,两个例子: 1)早期谷歌搜索广告的效率就是要比别家比如BIng更好,大概是16年前后的事情,后来破案了其实就是用了更大的模型,所以推荐的精度就上去了,可以覆盖更多的长尾需求 2)Meta买了一堆卡做更大的推荐系统,把Reels的用户平均观看时长增加了8-10%(非常大的提升)。总结一下如果数据足够,更大的模型就是更好,对于所有AI普适 3)So,如何看英伟达? 整个英伟达的Investment Thesis就是Scaling Law,而且scaling law泛化的越复杂、下面路线和技术变动速度越快,英伟达的优势就越明显,因为技术路径不收敛,在通用化的场景下英伟达的优势非常大 预测深度学习未来2-3年会发生什么是一件很难的事情,不确定性越大,是不是对NV就越利好? 主要是AI这一波太急太猛了,大家完全等不了,而且需求是没够的,时间太宝贵了,只能一边买卡一边自己搞,but anyway,英伟达maybe可能一直繁荣到钱都没那么重要的时候(aka post-AGI world:) *

00
全速前进W
11月前
然后展开一下关于认识scaling law的思考:核心是一切以计算为中心(compute-centric),主要两个层面(以后更新在小红书,id:全速前进)

1)算力的大盘快速增加:

整个市场上的可用算力(FLOPs)一定会越来越多(粗略理解为英伟达每年的GPU出货量 * 平均块GPU的算力 * 计算集群的上线率),算力的大盘正在快速增加,按马斯克的估计,可用算力正在以每半年10x的速度增长(不知道他怎么算的,但是这个速度有点夸张吧…),现在每年英伟达出货几百万块GPGPU,量只增不减。Less Wrong最近一篇分析到25年底,会有等效1240万张H100的等效算力

2)算力的分布结构会不断变化

A-从训练-推理的角度看:

- GPT1到4的的时代,自监督的预训练吃了最多的算力(99%),o1开始,以强化学习为核心的的后训练+深度推理逐渐的占比逐渐达到甚至在未来可能超过预训练的水平,合成数据(其实是推理的一种)也要吃掉很多算力,算力分配占比已经发生重大变化了

- 现在推理深度依然不够,思考时长分钟级别(大概几千token的量),按Noam Brown的说法,AI应该能做更长、更深的推理,推理一小时、一天、一周、甚至一个月,这个级别的深度思考可以证明数学猜想、发明新药、发明工程技术,而不仅仅是做题 So,推理这条线上还在早期。推理这块还可以再细分,muti-model + muti agent 复杂推理(据传GPT-5会有?)

- 未来continuous learning、实时学习、持续学习实现后,scaling law又会是什么?现在的LLM都是静态的,也就是说花两三个月训练完以后权重就不变了,所以现在GPT-4o的知识截断还是23年11月,显然人类在这个层面功能更完备,因为人每时每刻都在同时推理+学习,Richard Sutton(就是写bitter lesson的那位)最近在喊这个方向(参见Loss of plasticity in deep continual learning 这篇paper),也有人说GPT-5在这个方向也会有改进,希望是真的

B 从信息模态的角度讲

现在处理自然语言的token吃了最多的算力,未来是不是会转移更多到多模态token的处理上?视频、音频、行动、even more。可能现在只有<10%的算力在做多模态,未来这个比例将如何变化,具体以一种什么形式呈现?

C. 从AI的应用场景角度讲

1. 自动驾驶的scaling law:Tesla目前在这个领域遥遥领先

2023:千卡H100->FSD V12
2024:万卡H100->FSD V12.5,
2025:10万卡H100->FSD V13,现在正在进行中

未来数近百万B/H卡-> V14/RoboTaxi规模化落地(2027E+),衡量的指标就是(miles between intervention)我们大概会在这个时候看到完全达到/超过人类水平的自动驾驶,背后是百万卡算力支持

2. 机器人scaling law:数字世界的scaling law已经为人熟知,物理世界、具身智能的scaling law之后如何显现?现在机器人scaling law根本就还没起量,现在给具身智能分配的算力可能只是 <1%?

3. 推荐系统scaling law:更大的模型+更多数据 = 更好的推荐效果,两个例子:

1)早期谷歌搜索广告的效率就是要比别家比如BIng更好,大概是16年前后的事情,后来破案了其实就是用了更大的模型,所以推荐的精度就上去了,可以覆盖更多的长尾需求

2)Meta买了一堆卡做更大的推荐系统,把Reels的用户平均观看时长增加了8-10%(非常大的提升)。总结一下如果数据足够,更大的模型就是更好,对于所有AI普适

3)So,如何看英伟达?

整个英伟达的Investment Thesis就是Scaling Law,而且scaling law泛化的越复杂、下面路线和技术变动速度越快,英伟达的优势就越明显,因为技术路径不收敛,在通用化的场景下英伟达的优势非常大

预测深度学习未来2-3年会发生什么是一件很难的事情,不确定性越大,是不是对NV就越利好?

主要是AI这一波太急太猛了,大家完全等不了,而且需求是没够的,时间太宝贵了,只能一边买卡一边自己搞,but anyway,英伟达maybe可能一直繁荣到钱都没那么重要的时候(aka post-AGI world:)

*
11
全速前进W
2年前
Netflix的拍的三体里面,罗辑是个黑人,这是不矫枉过正了…
00
全速前进W
2年前
Capitalism is a low AI phenomenon.
00
全速前进W
2年前
对理想MEGA黑得最狠的梗: 交车仪式不许带鲜花
00
全速前进W
2年前
马后炮地看,Transformer的涌现其实是一个必然,因为关键的building blocks前几年都发明出来了。2014年的Attention Mechanism Seq2Seq是基本思想,2015年的Residual Connection提高了多层深度神经网络训练效率,2016年Layer Normalization让深度神经网络训练更稳定,降低了复杂度,2017年Transformer出现。

1)Tranformer 的里面attention/QKV都是并行计算
2)GPU计算能力突飞猛进

OpenAI很快就认准了这条道,2018年Alec Radford和Ilya做了GPT-1,后面的故事大家都知道了:
2019 年:GPT-2
2020年:GPT-3
2021年:GPT-3 API
2022年:GPT 3.5+ChatGPT
2023年:GPT-4
2024年:Sora + GPT-4.5/GPT-5 + ??
00
全速前进W
2年前
字节买了20万块H20(英伟达给的阉割版,据说性能大概H100的六分之一),估计价格大概不到200亿的样子,the GPU in China.
00
全速前进W
2年前
AGI/ASI is the only thing matters.

AGI/ASI is the only thing matters.

AGI/ASI is the only thing matters.

2025
00
全速前进W
2年前
True
00