然后展开一下关于认识scaling law的思考:核心是一切以计算为中心(compute-centric),主要两个层面(以后更新在小红书,id:全速前进)
1)算力的大盘快速增加:
整个市场上的可用算力(FLOPs)一定会越来越多(粗略理解为英伟达每年的GPU出货量 * 平均块GPU的算力 * 计算集群的上线率),算力的大盘正在快速增加,按马斯克的估计,可用算力正在以每半年10x的速度增长(不知道他怎么算的,但是这个速度有点夸张吧…),现在每年英伟达出货几百万块GPGPU,量只增不减。Less Wrong最近一篇分析到25年底,会有等效1240万张H100的等效算力
2)算力的分布结构会不断变化
A-从训练-推理的角度看:
- GPT1到4的的时代,自监督的预训练吃了最多的算力(99%),o1开始,以强化学习为核心的的后训练+深度推理逐渐的占比逐渐达到甚至在未来可能超过预训练的水平,合成数据(其实是推理的一种)也要吃掉很多算力,算力分配占比已经发生重大变化了
- 现在推理深度依然不够,思考时长分钟级别(大概几千token的量),按Noam Brown的说法,AI应该能做更长、更深的推理,推理一小时、一天、一周、甚至一个月,这个级别的深度思考可以证明数学猜想、发明新药、发明工程技术,而不仅仅是做题 So,推理这条线上还在早期。推理这块还可以再细分,muti-model + muti agent 复杂推理(据传GPT-5会有?)
- 未来continuous learning、实时学习、持续学习实现后,scaling law又会是什么?现在的LLM都是静态的,也就是说花两三个月训练完以后权重就不变了,所以现在GPT-4o的知识截断还是23年11月,显然人类在这个层面功能更完备,因为人每时每刻都在同时推理+学习,Richard Sutton(就是写bitter lesson的那位)最近在喊这个方向(参见Loss of plasticity in deep continual learning 这篇paper),也有人说GPT-5在这个方向也会有改进,希望是真的
B 从信息模态的角度讲
现在处理自然语言的token吃了最多的算力,未来是不是会转移更多到多模态token的处理上?视频、音频、行动、even more。可能现在只有<10%的算力在做多模态,未来这个比例将如何变化,具体以一种什么形式呈现?
C. 从AI的应用场景角度讲
1. 自动驾驶的scaling law:Tesla目前在这个领域遥遥领先
2023:千卡H100->FSD V12
2024:万卡H100->FSD V12.5,
2025:10万卡H100->FSD V13,现在正在进行中
未来数近百万B/H卡-> V14/RoboTaxi规模化落地(2027E+),衡量的指标就是(miles between intervention)我们大概会在这个时候看到完全达到/超过人类水平的自动驾驶,背后是百万卡算力支持
2. 机器人scaling law:数字世界的scaling law已经为人熟知,物理世界、具身智能的scaling law之后如何显现?现在机器人scaling law根本就还没起量,现在给具身智能分配的算力可能只是 <1%?
3. 推荐系统scaling law:更大的模型+更多数据 = 更好的推荐效果,两个例子:
1)早期谷歌搜索广告的效率就是要比别家比如BIng更好,大概是16年前后的事情,后来破案了其实就是用了更大的模型,所以推荐的精度就上去了,可以覆盖更多的长尾需求
2)Meta买了一堆卡做更大的推荐系统,把Reels的用户平均观看时长增加了8-10%(非常大的提升)。总结一下如果数据足够,更大的模型就是更好,对于所有AI普适
3)So,如何看英伟达?
整个英伟达的Investment Thesis就是Scaling Law,而且scaling law泛化的越复杂、下面路线和技术变动速度越快,英伟达的优势就越明显,因为技术路径不收敛,在通用化的场景下英伟达的优势非常大
预测深度学习未来2-3年会发生什么是一件很难的事情,不确定性越大,是不是对NV就越利好?
主要是AI这一波太急太猛了,大家完全等不了,而且需求是没够的,时间太宝贵了,只能一边买卡一边自己搞,but anyway,英伟达maybe可能一直繁荣到钱都没那么重要的时候(aka post-AGI world:)
*