即刻App年轻人的同好社区
下载
App内打开
Xuanhao
52关注16被关注0夸夸
be less wrong
Xuanhao
1月前
然后展开一下关于认识scaling law的思考:核心是一切以计算为中心(compute-centric),主要两个层面(以后更新在小红书,id:全速前进)

1)算力的大盘快速增加:

整个市场上的可用算力(FLOPs)一定会越来越多(粗略理解为英伟达每年的GPU出货量 * 平均块GPU的算力 * 计算集群的上线率),算力的大盘正在快速增加,按马斯克的估计,可用算力正在以每半年10x的速度增长(不知道他怎么算的,但是这个速度有点夸张吧…),现在每年英伟达出货几百万块GPGPU,量只增不减。Less Wrong最近一篇分析到25年底,会有等效1240万张H100的等效算力

2)算力的分布结构会不断变化

A-从训练-推理的角度看:

- GPT1到4的的时代,自监督的预训练吃了最多的算力(99%),o1开始,以强化学习为核心的的后训练+深度推理逐渐的占比逐渐达到甚至在未来可能超过预训练的水平,合成数据(其实是推理的一种)也要吃掉很多算力,算力分配占比已经发生重大变化了

- 现在推理深度依然不够,思考时长分钟级别(大概几千token的量),按Noam Brown的说法,AI应该能做更长、更深的推理,推理一小时、一天、一周、甚至一个月,这个级别的深度思考可以证明数学猜想、发明新药、发明工程技术,而不仅仅是做题 So,推理这条线上还在早期。推理这块还可以再细分,muti-model + muti agent 复杂推理(据传GPT-5会有?)

- 未来continuous learning、实时学习、持续学习实现后,scaling law又会是什么?现在的LLM都是静态的,也就是说花两三个月训练完以后权重就不变了,所以现在GPT-4o的知识截断还是23年11月,显然人类在这个层面功能更完备,因为人每时每刻都在同时推理+学习,Richard Sutton(就是写bitter lesson的那位)最近在喊这个方向(参见Loss of plasticity in deep continual learning 这篇paper),也有人说GPT-5在这个方向也会有改进,希望是真的

B 从信息模态的角度讲

现在处理自然语言的token吃了最多的算力,未来是不是会转移更多到多模态token的处理上?视频、音频、行动、even more。可能现在只有<10%的算力在做多模态,未来这个比例将如何变化,具体以一种什么形式呈现?

C. 从AI的应用场景角度讲

1. 自动驾驶的scaling law:Tesla目前在这个领域遥遥领先

2023:千卡H100->FSD V12
2024:万卡H100->FSD V12.5,
2025:10万卡H100->FSD V13,现在正在进行中

未来数近百万B/H卡-> V14/RoboTaxi规模化落地(2027E+),衡量的指标就是(miles between intervention)我们大概会在这个时候看到完全达到/超过人类水平的自动驾驶,背后是百万卡算力支持

2. 机器人scaling law:数字世界的scaling law已经为人熟知,物理世界、具身智能的scaling law之后如何显现?现在机器人scaling law根本就还没起量,现在给具身智能分配的算力可能只是 <1%?

3. 推荐系统scaling law:更大的模型+更多数据 = 更好的推荐效果,两个例子:

1)早期谷歌搜索广告的效率就是要比别家比如BIng更好,大概是16年前后的事情,后来破案了其实就是用了更大的模型,所以推荐的精度就上去了,可以覆盖更多的长尾需求

2)Meta买了一堆卡做更大的推荐系统,把Reels的用户平均观看时长增加了8-10%(非常大的提升)。总结一下如果数据足够,更大的模型就是更好,对于所有AI普适

3)So,如何看英伟达?

整个英伟达的Investment Thesis就是Scaling Law,而且scaling law泛化的越复杂、下面路线和技术变动速度越快,英伟达的优势就越明显,因为技术路径不收敛,在通用化的场景下英伟达的优势非常大

预测深度学习未来2-3年会发生什么是一件很难的事情,不确定性越大,是不是对NV就越利好?

主要是AI这一波太急太猛了,大家完全等不了,而且需求是没够的,时间太宝贵了,只能一边买卡一边自己搞,but anyway,英伟达maybe可能一直繁荣到钱都没那么重要的时候(aka post-AGI world:)

*
00
Xuanhao
8月前
MS最近一篇Research估计GPT-5用20-30万块H100训练130-200天,计算量比GPT-4大概多了25-100倍,真实情况肯定也不会差太远。H100的成本大概是3$/hour,这么拍的话,光电力成本就是10-40亿美元,从这个基本常识出发,任何鼓吹开源模型都是在搞笑?

看Sam最近在MIT的发言,下一代模型块发布了,叫GPT-5或者其他名字也好,没有任何理由说模型能力进入plateau,等发布的时候,预计所有开源模型看起来都像玩具:)

btw,GOOGL,AMZN,META,MSFT这四家预计2024年在数据中心上的capex超1500亿美元,这种规模其他人只能当吃瓜群众。除这四家旗下的模型,以及Elon的xAI以外,估计其他所有大模型公司在2024、2025都会被收购,或者gg。
00
Xuanhao
9月前
目前AI应用领域的主要矛盾就是startup们对OpenAI的进展预期过于保守,而OpenAI的实际进展比所有人想得都要激进。
00
Xuanhao
9月前
Gemini的Sholto Douglas说如果他们有足够多的算力,项目进度会快5倍,OpenAI的境遇只会更夸张。给天才研究员们足够的compute去run experiment,进步速度才能上来,现在算力依然是最大的瓶颈,市场对Nvidia数据中心的需求在未来三五年大概率看不到头。

此外这里能看见模型的self-improve主要是两块,以后这些loop会越来越强:

1)模型本身能力会放大和加速研究员的能力,比如写代码和做research
2)合成数据,这在未来是数据的大头
00
Xuanhao
10月前
Netflix的拍的三体里面,罗辑是个黑人,这是不矫枉过正了…
00
Xuanhao
10月前
Capitalism is a low AI phenomenon.
00
Xuanhao
10月前
对理想MEGA黑得最狠的梗: 交车仪式不许带鲜花
00
Xuanhao
10月前
马后炮地看,Transformer的涌现其实是一个必然,因为关键的building blocks前几年都发明出来了。2014年的Attention Mechanism Seq2Seq是基本思想,2015年的Residual Connection提高了多层深度神经网络训练效率,2016年Layer Normalization让深度神经网络训练更稳定,降低了复杂度,2017年Transformer出现。

1)Tranformer 的里面attention/QKV都是并行计算
2)GPU计算能力突飞猛进

OpenAI很快就认准了这条道,2018年Alec Radford和Ilya做了GPT-1,后面的故事大家都知道了:
2019 年:GPT-2
2020年:GPT-3
2021年:GPT-3 API
2022年:GPT 3.5+ChatGPT
2023年:GPT-4
2024年:Sora + GPT-4.5/GPT-5 + ??
00
Xuanhao
10月前
字节买了20万块H20(英伟达给的阉割版,据说性能大概H100的六分之一),估计价格大概不到200亿的样子,the GPU in China.
00