即刻App年轻人的同好社区
下载
App内打开
Chao.
681关注3k被关注13夸夸
Chao.
12天前
一语成谶
42
Chao.
27天前
早上看见一个消息说Claude 3.5 Opus早已经训练完成并且运作良好,但Anthropic选择暂不发布3.5 Opus,而是用它来生成合成数据训练 Sonnet 3.5。这样sonnet在推理成本不变的情况下水平得到提升,相比直接发布3.5 opus是更优的选择。消息还未得到证实。(下附报告原文)

这种AI套娃训练如果成立,模型之间可能形成复杂的“知识生态系统”,高级模型作为“导师”训练更初级的模型,而这些初级模型在特定领域发展后,又能反哺高级模型,形成一种自我循环的智能升级体系。

我自己曾经试验过用大模型评估其他大模型,得到的结果是不错的,能够比较有效的反映出模型间的能力差异。这种'理解同类'的能力很有趣,或许意味着模型间能协同的地方会很多。

Scaling Laws – O1 Pro Architecture, Reasoning Training Infrastructure, Orion and Claude 3.5 Opus “Failures”

11
Chao.
1月前
每一个历史性时刻,都是无数微弱信号聚合成的涟漪。这不是终点,而是通往远方的下一站。
00
Chao.
1月前
有想体验perplexity的朋友可以用下面的code,免费一个月pro。能用三次,用完就没了。

It's giving season.
Below is a discount code for one month of free Pro to give to your three favorite friends and family members ($20 value each!). Simply copy the below URL and share it via your preferred communication method.
www.perplexity.ai
Friends and family can redeem this code by clicking on the link. This code expires on Monday, December 2nd.
15
Chao.
1月前
一个技术问题,如何在游泳的时候听播客?
有这样的设备吗?

过去买过的游泳耳机下水后都只能mp3模式。(携带手机下水不算答案)
100
Chao.
1月前
前天Prime Intellect宣布用去中心化的方式完成了第一个百亿参数模型的训练。训练耗费了7万小时的H100 GPU时间,算力来自全球三大洲30个不同的提供方。

我曾认为那些号称支持去中心化训练的项目都只是忽悠(事实上大部分也确实是),因为大模型训练不仅依赖算力,对训练集群的整体架构也有极高要求。

大模型训练已发展到10万个H100级别,这种多卡集群依赖复杂的分布式计算技术,节点之间必须具备极高的带宽和极低的延迟。目前大家普遍使用的InfiniBand网络带宽可达400Gbps,延迟低至纳秒级别。除了算力和通讯需求,分布式存储、高效缓存、节点同步和一致性、热管理与容错也都是难题,可以说大模型训练满地都是坑。

那Prime Intellect是怎么实现的呢?在2023年11月,DeepMind提出了一个叫DiLoCo的去中心化训练方法,它的工作原理是这样的:

想象一个跨国企业的培训系统:传统方式是总部每天都要和所有分公司实时通信,每个分公司每做一个培训都要立即向总部汇报,这样会导致大量通信开销。DiLoCo设计了两层管理系统:总部先给每个分公司一份相同的培训手册(初始模型权重),各分公司进行500次独立培训(本地训练步骤),然后计算"经验总结"(伪梯度)= 培训后的知识 - 原始知识,总部收集所有分公司的经验总结,整合后制定新的培训方向。

通过这个方式,通讯需求降低了500倍,而在实验中,模型性能几乎没有损失。不过DeepMind只是公布了方法论,DiLoCo本身是个闭源实现,只在Google内部使用,实践中也只实现了4亿参数的训练,这个规模的模型并不真正具备实用性。

Prime Intellect在原始DiLoCo方法的基础上做了完整的开源实现,命名为OpenDiLoCo,同时进行了很多架构改进,并在最近成功训练了100亿参数模型,是原始实验规模的25倍。虽然百亿参数模型与GPT-4或Claude 3.5还有显著差距,但经过合理优化后已能胜任很多实际场景。

当然从实验细节看,现在离"一人一卡就能参与训练"还有很大距离,但这种方式已经让模型训练从少数科技巨头的专属游戏,迈向了更民主的时代。具体技术细节很复杂,不仅仅是累计500次训练汇报一下这么简单,有希望了解更多细节可以参考下方链接

INTELLECT–1: Launching the First Decentralized Training of a 10B Parameter Model

22
Chao.
2月前
那要说加密资金支持科学,最猛的当属Astera Institute,一个极度低调的非盈利组织。身处旧金山湾区,却又躲开了硅谷的喧嚣。它手握25亿美元捐赠,却几乎无人所知。

Astera是非盈利机构,通过资助科学家来推动人类文明进步,强调支持具有高杠杆效应的科学和技术项目为人类带来变革性的进步。Astera资助的并非DeSci领域,更多是开放科学,不过Astera的捐赠主要来自加密领域。

Astera的驻地计划像是一个未来科技的孵化器。入选的科学家可以获得15万美元左右的年薪,还有机会获得额外35万美元的资金作为研究预算。这些资助旨在帮助科学家验证想法,并从科学家变成科学企业家,最终创立公司。而成功独立的公司Astera会继续投入资金。

在这里,你可能会遇到正在研究如何在火星上培育生命的Erika Alden DeBenedictis,构建科学家社交网络促进科研的Ronen Tamari,或者探索通过和AI进行协作共同进行科学研究的Nokome Bentley。

而Astera最引人注目的是AGI领域的探索。他们的AGI实验室名为方尖碑(Obelisk),试图用与当前主流不同的方式解开智能的终极奥秘。Obelisk团队享有罕见的自由。他们不需要考虑融资,没有利润的目标,甚至没有公布研究成果的要求。这种长期主义的做法,让他们能够专注于最根本、最具挑战性的问题,而不是追逐眼前的热点。

Astera偶尔也做对外投资,投资了太空运输公司Firefly,投资了再生农业公司Terviva,最为人所知的一次是领投了专注reasoning的AI大模型公司imbue的B轮。

Astera Institute的创始人Jed McCaleb是加密领域的传奇。Jed 最早以创建文件共享服务 eDonkey2000 而闻名,进入加密领域后,他创建了早期加密领域的交易巨头Mt. Gox,在出售Mt.Gox后,创立了 Ripple,并开发了Ripple协议,这是一个旨在改善跨境支付的系统。由于与其他创始人之间的分歧,他随后离开了Ripple并创立了Stellar,目标是通过一个开放的网络来促进全球金融包容性。

在2021年,他又创立了vast space,一个专注太空居住的公司。几乎是同一时间,他创立了Astera,将目光投向了更遥远的未来。Astera迄今为止获得了25亿美元的捐赠,而Jed McCaleb个人捐赠了其中的一大部分。

与McCaleb并肩作战的是一位同样传奇的人物Cate Hall。Hall的履历读起来像是一部好莱坞大片:曾在法院担任律师,后来摇身一变成为世界顶级女子扑克选手,随后又共同创立了创下最快将药物候选物推进到I期临床试验记录的流行病医学公司Alvea。

Astera相信,真正的突破往往来自于被忽视的想法。我愿称之为科技乌托邦里,不安分的梦想家们正在日以继夜地工作,试图解开生命的奥秘,创造人工智能,甚至改造其他星球。 Astera也非常积极的组织研讨会,汇聚全球顶尖的科学家和思想家。
04
Chao.
2月前
在加密领域积极支持DeSci的参与者中,ID Theory是我最尊敬的。这是一家低调的基金,规模不大,却在过去几年里投资了十多个DeSci项目,包括Molecule、Vita DAO LabDAO 等。

他的联创有十年的生物科技从业经验,对这块很熟。除了投资,他担任了Molecule董事会成员,也深度参与了如VitaDAO等被投项目。这老哥同时也是Beaker DAO 的发起人,一个只投资DeSci的投资DAO。我和他在过去交流蛮多,也受到了不少影响。

DAO 一直是我非常感兴趣的领域,而 DeSci 类型的 DAO 更是少有的跨界前沿项目,且发展得非常稳健。这种偏爱也让我在评估其他项目时,对那些创始团队有深厚 DeSci 社区背景的项目格外关注。往往愿意多聊聊,即便最终不投资,我也会尽量提供支持。
13
Chao.
2月前
很少有人知道,密码朋克、加密战争都和拜登在1991年提交到国会的一项法案直接相关。33年后,民主党输掉了大选,拜登也输掉了这场他亲手挑起的加密战争。

从公私钥加密到开源运动,再到加密货币,这场战争对人类社会的影响比大家能想到的更深远,也更重要。

加密战争33年:始于拜登,终于拜登

01
Chao.
3月前
超过自己是不够的。加密任务上,新的Claude3.5sonnet超过o1 系列登顶!
41