即刻App年轻人的同好社区
下载
App内打开
Chao.
699关注3k被关注13夸夸
Chao.
29天前
TLDR:
- Hugging Face将用全球10个IDC的5000块H100训练100B参数模型,验证跨地区可行性。
- Google最新论文《Scaling Laws for DiLoCo》揭示反常识结论:跨地理分布式节点,节点越多性能越好。
- 初创公司Prime Intellect获1500万美元融资,其开源的OpenDiLoCo已实现跨洲10B模型训练,70B训练准备中。
- 未来:分散算力池或一定程度取代超大规模算力集群,十万卡集群可能成为历史。

3月15日Hugging Face联创Thomas Wolf在一个分享里透露即将用分布在全球10个不同IDC的约5000块H100,联合训练一个 70-100B 参数规模的模型。实验的核心目标是验证跨IDC大规模训练的可行性。

此前3天,Google 发布了一篇论文《Scaling Laws for DiLoCo》,提出了关于跨地理位置模型训练很重要甚至有点反常识的发现。

再之前的3月1日,一家名为 Prime Intellect 的公司宣布获得了 1500万美元融资,由Founders Fund领投,Menlo Ventures,以及 Andrej Karpathy、Clem Delangue (Hugging Face)、Dylan Patel (SemiAnalysis)、Tri Dao (Together.AI) 等知名AI圈大牛也参与了这轮投资。

这几个消息之间存在怎样的联系?下面一点一点梳理。

DiLoCo:分布式训练的突破

传统分布式训练的瓶颈:传统的分布式大模型训练面临一个核心挑战:通信开销。每个计算节点在完成计算后,需要立即将更新后的参数广播到其他节点以保持同步,这就要求训练用的 GPU 必须部署在同一物理位置,通过超高速网络互连。这种限制大大提高了大模型训练的基础设施成本,并限制了可用计算资源的规模。

DiLoCo 的创新方案:2023 年 11 月,DeepMind 提出了 DiLoCo 方法,其核心创新在于允许每个节点在本地执行多步计算和参数更新,再进行节点间的参数同步。通过特殊的优化技术,这种局部计算不会显著降低模型质量。实验表明,DiLoCo 能将通信开销减少高达 500 倍,同时保持模型质量基本不损失。这一突破使得利用跨地理位置的 GPU 资源进行大模型训练成为可能。

DeepMind 的原始论文主要是提出概念性的想法,实验性地训练了一个 0.4B 参数的小模型,并未提供开源代码或完整实现。这套方法到底能scale到多大规模的模型训练上,DeepMind自己也不知道。DiLoCo在最初的8个月内并未引起太多关注,讨论寥寥无几,直到24年7月。

Prime Intellect:从理论到实践
OpenDiLoCo 的诞生:2024 年 7 月,Prime Intellect 发布了 OpenDiLoCo 论文,将 DeepMind 的理论付诸实践。他们重现了 DeepMind 的结果,提供了具体实现方法,进行了超出原始范围的延伸性的实验,并且开源了代码。

规模化验证:2024 年 11 月底,Prime Intellect 发布了一个技术报告,展示了他们在利用全球几大洲多个IDC的GPU共同训练一个10B模型的过程,证明了OpenDiLoCo在实际生产环境中的可行性。

Google 的转变:从忽视到重视
虽然DiLoCo的想法最初来自 DeepMind,但在 Google 内部,这一研究路径最初并未得到足够重视。如果不是 Prime Intellect 的 OpenDiLoCo 实现引发了更广泛的关注,这一技术可能就会被淹没。

Google 最近发布的《Scaling Laws for DiLoCo》带来了几个重要发现:

规模优势:相比于传统数据并行训练,DiLoCo 在扩展性上更具优势。只要合理设置超参数,增加分布在不同地点的训练节点数量(M值)不仅不影响效果,反而会提高训练效果。

批量友好性:DiLoCo对大参数训练更友好,即使在单一数据中心的情况下,也能提升模型的泛化表现。

最优批大小:DiLoCo 提高了大模型训练时能使用的"最佳批大小",分布越广(参与训练的数据中心或GPU集群越多),最优批大小越大,从而带来训练效率的明显提升。

学习率稳定性:DiLoCo 训练的外层学习率等参数与模型大小无关,这意味着可以在小规模模型上用较少资源找到最优参数,然后直接应用到大规模模型,大幅减少大模型训练的调参成本。

超额训练稳健性:与传统训练不同,DiLoCo 在超额训练情况下不会出现明显的性能损失,可以放心增加训练量来提升潜在性能,而不必担心过度训练导致性能退化。

这些发现意味着DiLoCo方法在大模型训练上存在很大的潜力,甚至在不需要跨IDC集合算力的时候,也有应用的价值。

Google 的这篇论文也反过来引用了 OpenDiLoCo 的一些内容,论文第一作者 Zachary Charles 在发布时还特别提到了 Prime Intellect 的成果,原始研究者和社区形成了良性互动。

分布式训练即将从边缘走向舞台:
Hugging Face 即将启动 70-100B 跨IDC训练实验。而Prime Intellect自己也即将启动一个70B的类似训练,不仅模型参数再次scale up一个level,这次在训练工程结构上会更加的激进。

DiLoCo并不是唯一的分布式训练路线。其他一些路线也正在试验中,有些成绩也很不错。

这一系列发展都表明跨地理位置的分布式模型训练即将从边缘走入舞台中央。当这类技术在工程上进一步成熟,全球分散的计算资源讲能够被更灵活的使用,10万块集群可能就会成为历史。

最后多说说Prime Intellect,这个项目最初是从DeSci社区成长起来。CEO Vincent Weisser 曾是 VitaDAO/Bio的联合创始人,CTO Johannes Hagemann 之前在德国大模型公司 Aleph Alpha 负责分布式训练,同时也是VitaDAO的参与者。他们此前获得过5M+的种子轮融资,主要来自加密基金。而此次最新一轮融资几乎全部来自主流科技基金或AI业内人士,意味着项目同时获得了AI社区的主流认可。

附上相关资料:
arxiv.org
arxiv.org
arxiv.org
arxiv.org
arxiv.org
www.primeintellect.ai
15
Chao.
1月前
讲讲我投过的几个通用agent相关的团队。在23年通用agent这个概念是火过一波的,但到了24年,我的观察是大部分投资人和Agent创业者都不太敢押这个方向。原因是1.从模型到Agent工程再到支持Agent的infra都不够成熟,做出来的东西自然也不够好,PMF很难。 2. 大家都怕回头openai搞出来一个,小玩家就挂了。(当时大家都知道openai在做了,但确实都没想到ship出来的东西这么拉跨)3. 通用agent本身场景价值不明确,因此伪命题?(市场部分人的观点,不是我的)

投过的公司都还在江湖里浮沉,不方便讲那么具体,尽量捡一些能讲的。

1. 23年 Agent爆火的那波,我们Fomo了,投了一个通用agent,定位是做J.A.R.V.I.S。那时候离AutoGPT带起第一波agent热潮还没多久,融资很顺利oversubscribed,拿了Top VC和战投的钱,我们虽是小卡拉米,但聊的早,也跟着进去了。

产品上在23年Q3就实现了比较全面的browser use,核心能力是agent工程上的一些东西。如果把每一个动作当做一步的话,在实验中做到了完成500步的任务。当然这是理论值,我自己实测在50步左右的任务,成功率75%+,但我测的场景比较有限,任务链虽然长,但深度不够。如果延伸到各类奇奇怪怪的场景,肯定结果是更差的。不过那个年代用的模型是GPT3.5和4。即使在3.5上,很多多步任务的成功率也是不错的,比较难得。

但这阶段离成熟,离PMF显然还有很大距离。迭代了很多版,微调过很多方向,最后下决心pivot到了一个更收敛的方向,而因为对方向的理念分歧,两个cofounder走了一个。应该很容易猜到这家是谁。

2.
上面那家公司走的cofounder,出走后又做了一个公司,聊了一下现在的想法,决定继续支持他。他还是要做通用agent,但毕竟有了小两年的一线经验,坑没少踩,倒也没有虎了吧唧的完全讲同一个故事,而是在技术方向和产品上有一些更深入的思考,是对是错呢,我现在判断不出来,但人还是喜欢的,就继续押注了。

我原以为这哥们黯然离开后再起一摊找钱可能不那么容易,结果竟也oversubscribed,估值也没有很便宜。这个founder是比较懂to vc的,跟大家聊的时候用各种技巧,倒也未见得是真的那么热。不过有技巧归有技巧,愿意押的人也着实不少,这是出乎我意料的。

3. 去年投的一个agent团队,能力和工程方向都比较独特,核心技术在通用场景是有一定适用性的。团队选择的是某个垂直方向,做了不到一年,在垂直方向有了一些DAU,数字级别大致是放在移动互联网时代完全不够看,但放在Agent领域里算很体面的范围。去年年底告诉我们在通用agent技术上有重大突破,但为了获得市场优势,选择暂时不公布成果。大概因为我们是小跟投,已经投不动下一轮了,也没告知细节。人家不主动讲,我们也就不好问。但团队拿着技术突破,去聊了一圈,拿回来几个termsheet,搞定了A轮。距离上一轮也就半年多一点的样子,估值翻了大几倍。同时产品方向也要调整,下一个要发布的产品大概就是通用agent了。

4. 也是去年夏天投的一家,并不是做Agent,而是Agent Infra。他们最初讲的方向比较科幻,做一个让Agent可以雇佣human去干活的市场,同时也做Agent2Agent&Agent2Human间的支付体系。投资人以支付圈的战投为主。

这个看似科幻的市场,成立的前提是Agent已经发达到人们可以放心让他们处理资金流了。而且Agent可以根据需求,发包去雇人搞定工作,那更是至少L4级别的agent,有点太远了。

后面团队做了调整,不讲那么天马行空的故事了,而是做agent的金融基础设施,安全,合规的付款。新一轮也顺利拿下,其实离我投的那轮也就隔了三个来月,市场还是挺认可的。

目前通用agent方向虽然还在关注和保持投入,但已不太敢盲目乐观。曾满怀期待,却发现进展普遍不及预期,好在时不时的技术突破总能让希望重燃。总是用那句话提醒并安慰自己,“新技术总是短期被高估,长期被低估”。这既是对现状的解释,也是支撑大家前行的信念。
88
Chao.
1月前
我是喜欢通用Agent这个概念的,在海外投过三个跟这个方向有关的团队。

但通用agent真的很难,也存在巨大的非共识,投的几家有pivot出去的,有的是pivot进来的,所幸都还在牌桌上,手上也都还有子弹。

从我的观察,通用agent的现状是即使是做到了全行业一线水平离pmf也还很远,产品成熟度也还远远不够。但新技术总是在短期内被高估,在长期中被低估,还是祝福并期待大家能做出很好的突破。
73
Chao.
2月前
“delve” - 这个词正在以病毒传播之势攻占学术圈。过去两年学术文章中的"delve"用量比过去五百年总和还多,原因是大模型对“delve”似乎有特别的偏好。

“delve into”的现代含义是深入研究,语气略显高雅、学术,大模型是在通过高频使用“delve”模仿学术深度。原来当大家在用AI假装很懂的时候,AI自己也在假装很懂。
01
Chao.
2月前
坚持游泳有一段了,最快速度一直上不去。昨天忘带运动手表,凭感觉游,结果不仅突破了,而且大幅突破。我不知道具体时长,但停车场的计时器泄露了秘密。

而今天即使戴上表,也延续了突破的速度,甚至可能比昨天更快。原来很多所谓的极限,来自于我们对数字的敬畏,是大脑对肌肉设下的结界。
00
Chao.
2月前
休假了一个多月,本周回归。先把这段欠下的新模型在CryotoBench任务上跑了一遍。

DeepSeek R1过去这个月的热度不白拿,在连o3-mini-high也超过了。

阿里的Qwen-Max也很猛,接近o3-mini水平。

黑马是Gemini-2.0-pro-exp-02-05

​下周开始试验一些放空时间琢磨的新东西。
00
Chao.
3月前
魂斗罗这种上古IP如果搞商业化,适合做哪些东西?
120
Chao.
4月前
一语成谶
62
Chao.
4月前
早上看见一个消息说Claude 3.5 Opus早已经训练完成并且运作良好,但Anthropic选择暂不发布3.5 Opus,而是用它来生成合成数据训练 Sonnet 3.5。这样sonnet在推理成本不变的情况下水平得到提升,相比直接发布3.5 opus是更优的选择。消息还未得到证实。(下附报告原文)

这种AI套娃训练如果成立,模型之间可能形成复杂的“知识生态系统”,高级模型作为“导师”训练更初级的模型,而这些初级模型在特定领域发展后,又能反哺高级模型,形成一种自我循环的智能升级体系。

我自己曾经试验过用大模型评估其他大模型,得到的结果是不错的,能够比较有效的反映出模型间的能力差异。这种'理解同类'的能力很有趣,或许意味着模型间能协同的地方会很多。

Scaling Laws – O1 Pro Architecture, Reasoning Training Infrastructure, Orion and Claude 3.5 Opus “Failures”

11
Chao.
4月前
每一个历史性时刻,都是无数微弱信号聚合成的涟漪。这不是终点,而是通往远方的下一站。
00