全速前进W的个人主页

即刻App年轻人的同好社区

下载

App内打开

全速前进W

55关注20被关注0夸夸

be less wrong

全速前进W

23天前

长期不看好Anthropic

1）coding长期会被证明是中间战场

2）coding这个场景做不出壁垒

3）中短期会营收会继续增长，因为蛋糕很大

2 00

全速前进W

1月前

英伟达市值五万亿美元，mark一下

全速前进W: 然后展开一下关于认识scaling law的思考：核心是一切以计算为中心(compute-centric)，主要两个层面（以后更新在小红书，id：全速前进） 1）算力的大盘快速增加：整个市场上的可用算力（FLOPs）一定会越来越多（粗略理解为英伟达每年的GPU出货量 * 平均块GPU的算力 * 计算集群的上线率），算力的大盘正在快速增加，按马斯克的估计，可用算力正在以每半年10x的速度增长（不知道他怎么算的，但是这个速度有点夸张吧…），现在每年英伟达出货几百万块GPGPU，量只增不减。Less Wrong最近一篇分析到25年底，会有等效1240万张H100的等效算力 2）算力的分布结构会不断变化 A-从训练-推理的角度看： - GPT1到4的的时代，自监督的预训练吃了最多的算力（99%），o1开始，以强化学习为核心的的后训练+深度推理逐渐的占比逐渐达到甚至在未来可能超过预训练的水平，合成数据（其实是推理的一种）也要吃掉很多算力，算力分配占比已经发生重大变化了 - 现在推理深度依然不够，思考时长分钟级别（大概几千token的量），按Noam Brown的说法，AI应该能做更长、更深的推理，推理一小时、一天、一周、甚至一个月，这个级别的深度思考可以证明数学猜想、发明新药、发明工程技术，而不仅仅是做题 So，推理这条线上还在早期。推理这块还可以再细分，muti-model + muti agent 复杂推理（据传GPT-5会有？） - 未来continuous learning、实时学习、持续学习实现后，scaling law又会是什么？现在的LLM都是静态的，也就是说花两三个月训练完以后权重就不变了，所以现在GPT-4o的知识截断还是23年11月，显然人类在这个层面功能更完备，因为人每时每刻都在同时推理+学习，Richard Sutton（就是写bitter lesson的那位）最近在喊这个方向（参见Loss of plasticity in deep continual learning 这篇paper），也有人说GPT-5在这个方向也会有改进，希望是真的 B 从信息模态的角度讲现在处理自然语言的token吃了最多的算力，未来是不是会转移更多到多模态token的处理上？视频、音频、行动、even more。可能现在只有<10%的算力在做多模态，未来这个比例将如何变化，具体以一种什么形式呈现？ C. 从AI的应用场景角度讲 1. 自动驾驶的scaling law：Tesla目前在这个领域遥遥领先 2023：千卡H100->FSD V12 2024：万卡H100->FSD V12.5， 2025：10万卡H100->FSD V13，现在正在进行中未来数近百万B/H卡-> V14/RoboTaxi规模化落地（2027E+）,衡量的指标就是（miles between intervention）我们大概会在这个时候看到完全达到/超过人类水平的自动驾驶，背后是百万卡算力支持 2. 机器人scaling law：数字世界的scaling law已经为人熟知，物理世界、具身智能的scaling law之后如何显现？现在机器人scaling law根本就还没起量，现在给具身智能分配的算力可能只是 <1%？ 3. 推荐系统scaling law：更大的模型+更多数据 = 更好的推荐效果，两个例子： 1）早期谷歌搜索广告的效率就是要比别家比如BIng更好，大概是16年前后的事情，后来破案了其实就是用了更大的模型，所以推荐的精度就上去了，可以覆盖更多的长尾需求 2）Meta买了一堆卡做更大的推荐系统，把Reels的用户平均观看时长增加了8-10%（非常大的提升）。总结一下如果数据足够，更大的模型就是更好，对于所有AI普适 3）So，如何看英伟达？整个英伟达的Investment Thesis就是Scaling Law，而且scaling law泛化的越复杂、下面路线和技术变动速度越快，英伟达的优势就越明显，因为技术路径不收敛，在通用化的场景下英伟达的优势非常大预测深度学习未来2-3年会发生什么是一件很难的事情，不确定性越大，是不是对NV就越利好? 主要是AI这一波太急太猛了，大家完全等不了，而且需求是没够的，时间太宝贵了，只能一边买卡一边自己搞，but anyway，英伟达maybe可能一直繁荣到钱都没那么重要的时候（aka post-AGI world:） *

1 00

全速前进W

12月前

然后展开一下关于认识scaling law的思考：核心是一切以计算为中心(compute-centric)，主要两个层面（以后更新在小红书，id：全速前进）

1）算力的大盘快速增加：

整个市场上的可用算力（FLOPs）一定会越来越多（粗略理解为英伟达每年的GPU出货量 * 平均块GPU的算力 * 计算集群的上线率），算力的大盘正在快速增加，按马斯克的估计，可用算力正在以每半年10x的速度增长（不知道他怎么算的，但是这个速度有点夸张吧…），现在每年英伟达出货几百万块GPGPU，量只增不减。Less Wrong最近一篇分析到25年底，会有等效1240万张H100的等效算力

2）算力的分布结构会不断变化

A-从训练-推理的角度看：

- GPT1到4的的时代，自监督的预训练吃了最多的算力（99%），o1开始，以强化学习为核心的的后训练+深度推理逐渐的占比逐渐达到甚至在未来可能超过预训练的水平，合成数据（其实是推理的一种）也要吃掉很多算力，算力分配占比已经发生重大变化了

- 现在推理深度依然不够，思考时长分钟级别（大概几千token的量），按Noam Brown的说法，AI应该能做更长、更深的推理，推理一小时、一天、一周、甚至一个月，这个级别的深度思考可以证明数学猜想、发明新药、发明工程技术，而不仅仅是做题 So，推理这条线上还在早期。推理这块还可以再细分，muti-model + muti agent 复杂推理（据传GPT-5会有？）

- 未来continuous learning、实时学习、持续学习实现后，scaling law又会是什么？现在的LLM都是静态的，也就是说花两三个月训练完以后权重就不变了，所以现在GPT-4o的知识截断还是23年11月，显然人类在这个层面功能更完备，因为人每时每刻都在同时推理+学习，Richard Sutton（就是写bitter lesson的那位）最近在喊这个方向（参见Loss of plasticity in deep continual learning 这篇paper），也有人说GPT-5在这个方向也会有改进，希望是真的

B 从信息模态的角度讲

现在处理自然语言的token吃了最多的算力，未来是不是会转移更多到多模态token的处理上？视频、音频、行动、even more。可能现在只有<10%的算力在做多模态，未来这个比例将如何变化，具体以一种什么形式呈现？

C. 从AI的应用场景角度讲

1. 自动驾驶的scaling law：Tesla目前在这个领域遥遥领先

2023：千卡H100->FSD V12
2024：万卡H100->FSD V12.5，
2025：10万卡H100->FSD V13，现在正在进行中

未来数近百万B/H卡-> V14/RoboTaxi规模化落地（2027E+）,衡量的指标就是（miles between intervention）我们大概会在这个时候看到完全达到/超过人类水平的自动驾驶，背后是百万卡算力支持

2. 机器人scaling law：数字世界的scaling law已经为人熟知，物理世界、具身智能的scaling law之后如何显现？现在机器人scaling law根本就还没起量，现在给具身智能分配的算力可能只是 <1%？

3. 推荐系统scaling law：更大的模型+更多数据 = 更好的推荐效果，两个例子：

1）早期谷歌搜索广告的效率就是要比别家比如BIng更好，大概是16年前后的事情，后来破案了其实就是用了更大的模型，所以推荐的精度就上去了，可以覆盖更多的长尾需求

2）Meta买了一堆卡做更大的推荐系统，把Reels的用户平均观看时长增加了8-10%（非常大的提升）。总结一下如果数据足够，更大的模型就是更好，对于所有AI普适

3）So，如何看英伟达？

整个英伟达的Investment Thesis就是Scaling Law，而且scaling law泛化的越复杂、下面路线和技术变动速度越快，英伟达的优势就越明显，因为技术路径不收敛，在通用化的场景下英伟达的优势非常大

预测深度学习未来2-3年会发生什么是一件很难的事情，不确定性越大，是不是对NV就越利好?

主要是AI这一波太急太猛了，大家完全等不了，而且需求是没够的，时间太宝贵了，只能一边买卡一边自己搞，but anyway，英伟达maybe可能一直繁荣到钱都没那么重要的时候（aka post-AGI world:）

*

0 11

全速前进W

1年前

这位哥确实不太清楚ai最基本的概念，但是多骂，爱看

AI暴躁吐槽君: Sam的新公开信毫无信息量。怎么又开始吹深度学习了，这是要来一轮AI基础概念科普吗？你让那些为了追大模型热度把深度学习和神经网络宣传拿掉的公司怎么办，再加回来吗？下次再带大家重温机器学习。摊牌了，新词都不造了，我Open AI，AGI，打钱。

0 00

全速前进W

2年前

Netflix的拍的三体里面，罗辑是个黑人，这是不矫枉过正了…

0 00

全速前进W

2年前

Capitalism is a low AI phenomenon.

0 00

全速前进W

2年前

对理想MEGA黑得最狠的梗：交车仪式不许带鲜花

0 00

全速前进W

2年前

马后炮地看，Transformer的涌现其实是一个必然，因为关键的building blocks前几年都发明出来了。2014年的Attention Mechanism 和 Seq2Seq是基本思想，2015年的Residual Connection提高了多层深度神经网络训练效率，2016年Layer Normalization让深度神经网络训练更稳定，降低了复杂度，2017年Transformer出现。

1）Tranformer 的里面attention/QKV都是并行计算
2）GPU计算能力突飞猛进

OpenAI很快就认准了这条道，2018年Alec Radford和Ilya做了GPT-1，后面的故事大家都知道了：
2019 年：GPT-2
2020年：GPT-3
2021年：GPT-3 API
2022年：GPT 3.5+ChatGPT
2023年：GPT-4
2024年：Sora + GPT-4.5/GPT-5 + ？？

1 00

全速前进W

2年前

字节买了20万块H20（英伟达给的阉割版，据说性能大概H100的六分之一），估计价格大概不到200亿的样子，the GPU in China.

1 00

全速前进W

2年前

AGI/ASI is the only thing matters.

AGI/ASI is the only thing matters.

AGI/ASI is the only thing matters.

2025

1 00