TLDR:
- Hugging Face将用全球10个IDC的5000块H100训练100B参数模型,验证跨地区可行性。
- Google最新论文《Scaling Laws for DiLoCo》揭示反常识结论:跨地理分布式节点,节点越多性能越好。
- 初创公司Prime Intellect获1500万美元融资,其开源的OpenDiLoCo已实现跨洲10B模型训练,70B训练准备中。
- 未来:分散算力池或一定程度取代超大规模算力集群,十万卡集群可能成为历史。
3月15日Hugging Face联创Thomas Wolf在一个分享里透露即将用分布在全球10个不同IDC的约5000块H100,联合训练一个 70-100B 参数规模的模型。实验的核心目标是验证跨IDC大规模训练的可行性。
此前3天,Google 发布了一篇论文《Scaling Laws for DiLoCo》,提出了关于跨地理位置模型训练很重要甚至有点反常识的发现。
再之前的3月1日,一家名为 Prime Intellect 的公司宣布获得了 1500万美元融资,由Founders Fund领投,Menlo Ventures,以及 Andrej Karpathy、Clem Delangue (Hugging Face)、Dylan Patel (SemiAnalysis)、Tri Dao (Together.AI) 等知名AI圈大牛也参与了这轮投资。
这几个消息之间存在怎样的联系?下面一点一点梳理。
DiLoCo:分布式训练的突破
传统分布式训练的瓶颈:传统的分布式大模型训练面临一个核心挑战:通信开销。每个计算节点在完成计算后,需要立即将更新后的参数广播到其他节点以保持同步,这就要求训练用的 GPU 必须部署在同一物理位置,通过超高速网络互连。这种限制大大提高了大模型训练的基础设施成本,并限制了可用计算资源的规模。
DiLoCo 的创新方案:2023 年 11 月,DeepMind 提出了 DiLoCo 方法,其核心创新在于允许每个节点在本地执行多步计算和参数更新,再进行节点间的参数同步。通过特殊的优化技术,这种局部计算不会显著降低模型质量。实验表明,DiLoCo 能将通信开销减少高达 500 倍,同时保持模型质量基本不损失。这一突破使得利用跨地理位置的 GPU 资源进行大模型训练成为可能。
DeepMind 的原始论文主要是提出概念性的想法,实验性地训练了一个 0.4B 参数的小模型,并未提供开源代码或完整实现。这套方法到底能scale到多大规模的模型训练上,DeepMind自己也不知道。DiLoCo在最初的8个月内并未引起太多关注,讨论寥寥无几,直到24年7月。
Prime Intellect:从理论到实践
OpenDiLoCo 的诞生:2024 年 7 月,Prime Intellect 发布了 OpenDiLoCo 论文,将 DeepMind 的理论付诸实践。他们重现了 DeepMind 的结果,提供了具体实现方法,进行了超出原始范围的延伸性的实验,并且开源了代码。
规模化验证:2024 年 11 月底,Prime Intellect 发布了一个技术报告,展示了他们在利用全球几大洲多个IDC的GPU共同训练一个10B模型的过程,证明了OpenDiLoCo在实际生产环境中的可行性。
Google 的转变:从忽视到重视
虽然DiLoCo的想法最初来自 DeepMind,但在 Google 内部,这一研究路径最初并未得到足够重视。如果不是 Prime Intellect 的 OpenDiLoCo 实现引发了更广泛的关注,这一技术可能就会被淹没。
Google 最近发布的《Scaling Laws for DiLoCo》带来了几个重要发现:
规模优势:相比于传统数据并行训练,DiLoCo 在扩展性上更具优势。只要合理设置超参数,增加分布在不同地点的训练节点数量(M值)不仅不影响效果,反而会提高训练效果。
批量友好性:DiLoCo对大参数训练更友好,即使在单一数据中心的情况下,也能提升模型的泛化表现。
最优批大小:DiLoCo 提高了大模型训练时能使用的"最佳批大小",分布越广(参与训练的数据中心或GPU集群越多),最优批大小越大,从而带来训练效率的明显提升。
学习率稳定性:DiLoCo 训练的外层学习率等参数与模型大小无关,这意味着可以在小规模模型上用较少资源找到最优参数,然后直接应用到大规模模型,大幅减少大模型训练的调参成本。
超额训练稳健性:与传统训练不同,DiLoCo 在超额训练情况下不会出现明显的性能损失,可以放心增加训练量来提升潜在性能,而不必担心过度训练导致性能退化。
这些发现意味着DiLoCo方法在大模型训练上存在很大的潜力,甚至在不需要跨IDC集合算力的时候,也有应用的价值。
Google 的这篇论文也反过来引用了 OpenDiLoCo 的一些内容,论文第一作者 Zachary Charles 在发布时还特别提到了 Prime Intellect 的成果,原始研究者和社区形成了良性互动。
分布式训练即将从边缘走向舞台:
Hugging Face 即将启动 70-100B 跨IDC训练实验。而Prime Intellect自己也即将启动一个70B的类似训练,不仅模型参数再次scale up一个level,这次在训练工程结构上会更加的激进。
DiLoCo并不是唯一的分布式训练路线。其他一些路线也正在试验中,有些成绩也很不错。
这一系列发展都表明跨地理位置的分布式模型训练即将从边缘走入舞台中央。当这类技术在工程上进一步成熟,全球分散的计算资源讲能够被更灵活的使用,10万块集群可能就会成为历史。
最后多说说Prime Intellect,这个项目最初是从DeSci社区成长起来。CEO Vincent Weisser 曾是 VitaDAO/Bio的联合创始人,CTO Johannes Hagemann 之前在德国大模型公司 Aleph Alpha 负责分布式训练,同时也是VitaDAO的参与者。他们此前获得过5M+的种子轮融资,主要来自加密基金。而此次最新一轮融资几乎全部来自主流科技基金或AI业内人士,意味着项目同时获得了AI社区的主流认可。
附上相关资料:
arxiv.orgarxiv.orgarxiv.orgarxiv.orgarxiv.orgwww.primeintellect.ai