即刻App年轻人的同好社区
下载
App内打开
李提米-九点睡觉版
208关注80被关注1夸夸
普通离职打工人,浮思于墨
正在筹备小报童,
只卷自己,不卷他人。
置顶
李提米-九点睡觉版
1年前
当前的个人知识管理系统,一部分能自动完成了。

信息输入源: Inoreader
信息收集:Instapaper(收藏网页为主)/readwise(简单处理)
定时回顾:readwise
​轻量记录:Flomo(互相关联)
重量记录:word/notion
00
李提米-九点睡觉版
2天前
看完苹果 16 的首发评测们,
购买的热情下降了特别多🙁。
10
李提米-九点睡觉版
4天前
要把一件事办妥,
就要有把一个想法
扎进别人脑子里的决心。

—— 《李诞脱口秀工作手册》
00
李提米-九点睡觉版
6天前
今天看直播,刷到一位香港中文大学的小姐姐连麦。
很感慨对方从骨子里散发的自信,
是那种肉眼可见的自信和优秀。

所以对于从农村出来在北京待了几年
又回到农村的我来说,向她学习。

同时更应该察觉到,写作、自媒体、AI,是我目前为数不多,只凭借努力就有产出,就有结果的资源。
00
李提米-九点睡觉版
6天前
人天然喜欢看成长,
你要用五分钟的时间成长给他看,
观众就也会成长。
00
李提米-九点睡觉版
6天前
AI 再厉害,也得能用得上。
现在就发愁如何真正和目标结合,
如何用 AI 增加自己的现实影响力。
00
李提米-九点睡觉版
10天前
16Pro系列,当成生产力工具肯定是牛的。
当成消费电子产品的话,就没必要了。
00
李提米-九点睡觉版
4月前

罗锴: NVIDIA 展示了到2027年的GPU和互连路线图 2024年6月2日,Timothy Prickett Morgan 在计算、网络和图形处理的历史上,有许多事情使Nvidia独树一帜。 其中之一是它目前手头有大量资金,并且在生成式AI(Generative AI)市场中由于其架构、工程和供应链的领先地位,几乎可以随心所欲地制定任何有可能带来进展的路线图。 Nvidia早在2000年代就已经是一个非常成功的创新者,它实际上并不需要扩展到数据中心计算领域。 但高性能计算(HPC)研究人员将Nvidia引入加速计算领域,随后AI研究人员利用GPU计算,创造了一个全新的市场。这个市场在过去四十年中一直在等待大量计算能力以合理的价格与大量数据碰撞,真正实现越来越像思考机器的目标。 向Danny Hillis、Marvin Minksy和Sheryl Handler致敬,他们在1980年代创立了Thinking Machines,以推动AI处理,而不是传统的HPC仿真和建模应用。向Yann LeCun致敬,他在同一时期在AT&T Bell实验室创建了卷积神经网络。 当时,他们既没有足够的数据,也没有足够的计算能力来使我们现在所知的AI发挥作用。当时,Jensen Huang是LSI Logic公司的主管,该公司生产存储芯片,最终成为AMD的CPU设计师。 就在Thinking Machines在1990年代初期举步维艰(并最终破产)的时候,Huang在圣何塞东侧的Denny’s餐厅与Chris Malachowsky和Curtis Priem会面,并创立了Nvidia。 Nvidia看到了来自研究界和超大规模数据中心社区的AI机遇,开始构建系统软件和底层大规模并行硬件,实现了自计算机诞生以来一直存在的AI革命梦想。 这一直是计算的最终状态,这一直是我们所追求的奇点——或者说双极性。如果其他星球上存在生命,那么生命总会进化到这个世界拥有大规模杀伤性武器的地步,并且总会创造出人工智能。而且可能大约在同一时间。这就是在那个时刻之后,这个世界对这些技术所做的决定决定了它是否会在大规模灭绝事件中幸存下来。 这可能听起来不像是一个芯片制造商路线图讨论的正常介绍。确实不是,因为我们生活在有趣的时代。 在台湾台北的年度Computex贸易展览会上,Nvidia的联合创始人兼首席执行官在他的主题演讲中再次试图将生成式AI革命——他称之为第二次工业革命——置于其背景下,并展示了AI总体未来和Nvidia硬件未来的一瞥。 我们看到了一个GPU和互连路线图的初探——据我们所知,这并不在计划中,直到最后一刻,就像Huang和他的主题演讲常常那样。 革命是不可避免的 生成式AI的关键在于规模,Huang提醒我们这一点,并指出2022年底的ChatGPT时刻能够发生在技术和经济原因上是必然的。 要达到ChatGPT的突破性时刻,需要GPU性能的显著增长,然后还需要大量的GPU。 Nvidia确实在性能上有所提升,这对AI训练和推理都很重要,而且重要的是,Nvidia大幅减少了生成大语言模型响应中的Token所需的能量。看看这个: GPU的性能在八年之间从“Pascal”P100 GPU代到“Blackwell”B100 GPU代增加了1,053倍。(我们知道图表上显示的是1,000倍,但那并不精确。) 其中一些性能提升来自于降低浮点精度——通过从Pascal P100, Volta V100和Ampere A100 GPU中的FP16格式转向Blackwell B100s中的FP4格式,实现了4倍的提升。 如果没有这种精度降低,性能提升将仅为263倍。 请注意,这在CPU市场上已经相当不错了,CPU市场通常每个时钟周期核心性能的增加是10%到15%,核心数量增加可能是25%到30%。 在同样的八年时间里,CPU吞吐量大约增加了4倍到5倍,如果升级周期是两年的话。 每单位工作功率的减少是一个关键指标,因为如果你无法为系统供电,你就无法使用它。Token生成的能量成本必须下降,这意味着大语言模型生成的每个Token的能量必须比性能增加更快地下降。 在他的主题演讲中,为了给你一些更深的背景知识,使用Pascal P100 GPU生成一个Token所需的17,000焦耳大约相当于运行两个灯泡两天的能量,每个单词平均需要大约三个Token。所以如果你生成大量单词,那就是很多灯泡!现在你开始明白为什么在八年前在大规模运行一个大语言模型是不可能的了。看看训练GPT-4 Mixture of Experts大语言模型(参数为1.8万亿,数据驱动模型的Token为8万亿)所需的能量: 一个P100集群需要超过1,000千兆瓦时的电量。令人叹为观止。 Huang解释说,使用Blackwell GPU,公司将能够在大约十天内使用大约10,000个GPU训练这个GPT-4 1.8T MoE模型。 如果AI研究人员和Nvidia没有转向较低的精度,性能提升在八年间将仅为250倍。 降低能量成本是一回事;降低系统成本是另一回事。在传统摩尔定律的终点,这两个都是非常困难的技巧,在摩尔定律下,每18到24个月晶体管缩小一次,芯片变得越来越便宜和更小。 现在,计算复杂度达到了掩模极限,每个晶体管变得更贵——因此,用这些晶体管制造的设备也变得更贵。HBM内存是成本的重要组成部分,先进的封装技术也是如此。 在SXM系列GPU插槽中(而非PCI-Express版本的GPU),一块P100在推出时的价格大约为5,000美元;一块V100的价格大约为10,000美元;一块A100的价格大约为15,000美元;而一块H100的价格大约为25,000到30,000美元。 预计B100的价格将在35,000到40,000美元之间——Huang自己在今年早些时候在CNBC上谈到Blackwell价格时说过。 Huang没有展示的是每一代GPU需要多少来训练GPT-4 1.8T MoE模型,以及这些GPU或电力的运行成本。 所以我们制作了一个小电子表格,基于Huang所说的需要大约10,000个B100在大约十天内训练GPT-4 1.8T MoE。看看这个: 在这八年里,GPU价格上涨了7.5倍,但性能却上涨了超过1,000倍。 所以现在可以想象使用Blackwell系统在大约十天内训练一个像GPT-4这样有1.8万亿参数的大模型,而在两年前Hopper代开始时,训练一个有数千亿参数的模型还很困难。 现在,系统成本将与该系统两年的电费相当。(GPU大约占AI训练系统成本的一半,所以购买一个10,000个GPU的Blackwell系统大约需要8亿美元,运行十天的电费大约为540,000美元。 如果你购买更少的GPU,你可以减少每天、每周或每月的电费,但你也会相应地增加训练时间,这又会把成本提高上去。 你无法取胜,也无法退出。 猜猜看?Nvidia也无法退出。所以就是这样。尽管Hopper H100 GPU平台是“也许是历史上最成功的数据中心处理器”,正如Huang在他的Computex主题演讲中所说,Nvidia必须继续前进。 旁注:我们希望将这一Hopper/Blackwell投资周期与IBM System/360推出六十年前的投资周期进行比较,正如我们去年所解释的那样。在1961年,当IBM开始其“下一代产品线”研究和开发项目时,它是一家年收入22亿美元的公司,并在整个1960年代花费了超过50亿美元。 蓝色巨人是华尔街上的第一个蓝筹公司,正因为它花费了两年的收入和二十年的利润来创建System/360。是的,其中的一些部分是迟到和性能不足的,但它彻底改变了企业中的数据处理性质。 IBM认为它可能会在20世纪60年代末实现600亿美元的销售额(按2019年的美元计算,我们已经调整过),但他们实现了1390亿美元,其中约520亿美元的利润。 Nvidia无疑为数据中心计算的第二阶段创造了更大的浪潮。所以现在真正的赢家可能会被称为绿色芯片公司? 抵抗是徒劳的 Nvidia及其竞争对手或客户无法抗拒未来的引力以及生成式AI不仅在我们耳边低语,而且在屋顶上大声喊叫的利润和生产力承诺。 因此,Nvidia将加快步伐并推动极限。拥有250亿美元的现金和预计今年超过1000亿美元的收入,可能还有另外500亿美元的存款,它可以承担推动极限并将我们所有人带入未来。 “在这个惊人的增长时期,我们要确保继续提升性能,继续降低成本——训练成本,推理成本——并继续扩展AI能力,使每个公司都能拥抱。 我们推动性能提升得越高,成本下降得越多。” 正如我们上面的表格清楚地显示,这是真的。 这将我们带到了更新的Nvidia平台路线图: 这有点难读,所以让我们仔细看看。 在Hopper一代中,最初的H100s于2022年推出,配有六堆HBM3内存,带有NVSwitch,具有900 GB/sec端口将它们连接在一起,并配有Quantum X400(以前称为Quantum-2)InfiniBand交换机,端口为400 Gb/sec,并配有ConnectX-7网络接口卡。 在2023年,H200升级到六堆具有更高容量和带宽的HBM3E内存,这提高了H200包中基础H100 GPU的有效性能。BlueField 3 NIC也推出了,它在NIC中添加了Arm核心,以便它们可以做辅助工作。 在2024年,Blackwell GPU当然已经推出,配有八堆HBM3e内存,并配有NVSwitch 5,端口为1.8 TB/sec,并配有800 Gb/sec ConnectX-8 NIC和Spectrum-X800和Quantum-X800交换机,端口为800 GB/sec。 我们现在可以看到,在2025年,B200,在上面的图表中称为Blackwell Ultra,将有八堆十二片高的HBM3e内存。 我们认为B100中的堆是八片高的,所以这应该至少代表Blackwell Ultra的HBM内存容量增加50%,可能更多,这取决于使用的DRAM容量。HBM3E内存的时钟速度也可能更高。 Nvidia对Blackwell系列的内存容量有点模糊,但我们在三月份Blackwell发布时估计B100将有192 GB的内存,带宽为8 TB/sec。 对于未来的Blackwell Ultra,我们预计会有更快的内存可用,不会惊讶地看到288 GB的内存,带宽为9.6 TB/sec。 我们认为Ultra变体在SM上的产量改进有很大可能性会让它们显示出比其非Ultra前辈略高的性能。具体取决于产量。 Nvidia还将在2025年推出更高基数的Spectrum-X800以太网交换机,可能在箱子里有六个ASIC,以创建一个非阻塞架构,就像其他交换机常见的那样,通过倍增总带宽,从而倍增每个端口的带宽或交换机中的端口数量。 在2026年,我们看到“Rubin” R100 GPU,以前在Nvidia去年发布的路线图中称为X100,正如我们当时所说,我们认为X是一个变量而不是缩写。事实证明这是真的。 Rubin GPU将使用HBM4内存,并且将有八堆HBM4内存,每个堆大概有十二片DRAM高,并且在2027年的Rubin Ultra GPU将有十二堆HBM4内存,可能还有更高的堆(尽管路线图没有说明)。 我们直到2026年才看到Nvidia推出的踢脚Arm服务器CPU,名为“Vera” CPU,是当前“Grace” CPU的后继者。NVSwitch 6芯片与这些配对,端口为3.6 TB/sec,ConnectX-9的端口运行速度为1.6 Tb/sec。 有趣的是,有一种叫做X1600 IB/Ethernet Switch的东西,这可能意味着Nvidia正在将其InfiniBand和Ethernet ASIC融合在一起,正如Mellanox十年前所做的那样。或者,这可能意味着Nvidia只是为了好玩,让我们所有人都在猜测。 2027年有其他事情的暗示,这可能意味着完全支持Ultra Ethernet Consortium的NIC和交换机,甚至可能包括UALink交换机,用于在节点内和跨机架连接GPU。 我们在开玩笑。但更奇怪的事情已经发生过了。 https://www.nextplatform.com/2024/06/02/nvidia-unfolds-gpu-interconnect-roadmaps-out-to-2027/

00
李提米-九点睡觉版
9月前
今年推荐《纳瓦尔宝典》和《笔记的方法》
00