即刻App年轻人的同好社区
下载
App内打开
Max_means_best
808关注1k被关注0夸夸
海本辍学创业
ex某头部模型team、双币VC、头部AI媒体
分享AI深度insights
小红书3️⃣万粉AI博主,30万获赞,数亿阅读
置顶
Max_means_best
10月前
“我喜欢看到欣欣向荣的世界”
​国内已经有很多创业者社群了,但 builder的社群比较少
有时候,不考虑盈利,纯粹做一个喜欢的事情也是挺不错的

————Hackathon Weekly 北京01场纪念
105
Max_means_best
1天前
我被带飞了✈️(≧◡≦) //@Ai黄小刀: 这么猛

Max_means_best: 大家都关心的DeepSeek-R2,我和梁赛、牙医还有Transformer周老师一起进行了一次直播讨论 一口气聊了一个多小时,下面是我们聊了什么⬇️ 一、首先我们聚焦于近期网络上关于 DeepSeek 的一些“劲爆”传闻,尤其是被戏称为“草莓哥”的爆料。这些传言包括“推理性能提升 400 倍”、“成本暴降 97.4%”、“彻底放弃 Transformer 架构”、“一键实现室温超导材料发现”等等,听起来令人热血沸腾。 然而,我们对此普遍持谨慎乃至怀疑态度。 牙医老师从infra的角度进行了精辟分析。他以 H100 显卡为例(约 2 PetaFLOPS 的 FP16 性能,约 2 TB/s 的显存带宽),指出计算强度(算力/访存带宽)是衡量算法瓶颈的关键。如果真如传言所说,每 TFLOPs 的推理能力提升 400 倍,意味着算力效率大幅提升,计算单元会更快完成任务,从而更频繁地等待数据读取,这将使得访存带宽成为更严重的瓶颈。除非访存技术有同等级别的突破,否则单纯的算力效率提升带来的实际效益将大打折扣。 牙医老师直言,爆料者可能既不懂 Transformer 的核心瓶颈,也不了解所谓的“递归认知网格”——一个在学术界几乎无人提及的概念。因此,此类言论的置信度“约等于零”。 周老师认为,在没有业界公认的、可完全替代 Transformer 的成熟方案出现之前,DeepSeek 不太可能贸然进行如此颠覆性的底层创新。更现实的路径是基于 Transformer 进行优化,例如改进多头注意力(MLA)、采用更高效的 MoE (Mixture of Experts) 结构等,这些本就是优秀工程师的“基操”。 对于“一键实现室温超导”这类说法,我们一笑置之,认为这超出了当前科技水平。 至于成本下降,虽然 DeepSeek 的 Janus 架构确实致力于降低多模态输入的成本(例如将图片输入输出整合,减少重复处理),但 97.4% 的降幅缺乏具体依据,更多是吸引眼球的说法。 我们一致认为,这些“小作文”更多反映了大众对中国 AI 技术突破的热切期盼和一定程度的焦虑情绪,而非技术现实。 二、抛开那些流言,DeepSeek 的核心目标——实现通用人工智能 (AGI)——才是理解其技术布局的关键。 通往 AGI 的路上需要攻克三大难关⬇️ 1️⃣ 数学与代码能力: 这是衡量模型逻辑推理和问题解决能力的核心。DeepSeek 在此早有布局,例如其发布的 Prove-Math 模型,专注于数学定理证明,显示了其在该领域的决心。 2️⃣ 多模态能力: 实现 AGI 需要模型能够理解和生成多种信息形式。 3️⃣ 强大的语言模型: 这是所有能力的基础。 按照我对于DeepSeek团队的理解,他们对 AGI 是有着坚定执着的。 DeepSeek 的策略是从 AGI 的最终需求出发,反推当前需要实现哪些能力、攻克哪些瓶颈。这种“以终为始”的研发思路,使其在技术选择上更注重基础性和前瞻性,而非短期商业回报。 这与 OpenAI 当前的商业化运作模式形成了对比。OpenAI 作为行业领头羊,面临盈利、产品迭代和投资人等多重压力,其行动往往带有更强的市场和营销导向。 而 DeepSeek 则展现出更纯粹的学术和研究气质,其内部管理也更偏向自由探索,鼓励团队在不同方向上尝试。 三、基于对 DeepSeek 战略和当前技术趋势的理解,我们对 V4 及可能的 R 系列模型在以下几个方面寄予厚望⬇️ 1️⃣ 多模态能力的融合与提升: 当前多模态模型(如谷歌的 Veo,以及Dpsk春节前发布的 7B Janus)在某些单点能力上表现突出,但端到端的原生多模态、尤其是高质量的跨模态生成仍有较大提升空间。 牙医老师指出,Janus 的识别能力(文图生 Prompt,图生文)很强,但文生图效果则相对落后。 但高质量、大规模、精细标注的多模态训练数据是巨大瓶颈。 国内数据虽多,但清洗和标注成本高昂。此外,模型架构(如 Diffusion Transformer vs. 自回归)的选择也仍在探索。 V4 我们很希望是一个原生的多模态模型。即使不能一步到位达到“摧枯拉朽”的效果,能“做出来”本身就是进步,后续迭代优化可期。 大家认为,只要 DeepSeek 能把多模态的“架子”搭起来,就有提升的机会。 2️⃣ 数学与代码能力的再进化: 这是 AGI 的基石,也是 DeepSeek 持续发力的方向。 其 V3 模型在 3 月份的更新版本(0324 版)在代码和数学能力上已接近 Claude3.5 水平。 R2 或后续模型有望在代码生成、数学推理上追赶甚至部分超越 Claude 3.7 等顶级模型。 牙医老师甚至大胆猜想,DeepSeek 可能认为只有编码和数学的极致强大才是真正的 AGI 核心,其他能力(如绘画)可能并非其首要关注点。 R2 可能会在特定高难度数学问题求解或新的编程基准测试上展现突破。 3️⃣Agent、工具调用与编排能力的增强: 模型与外部世界交互、调用工具、执行复杂任务是 AGI 的重要特征。 周老师认为,DeepSeek 一直对标世界最好的 AGI,因此在 Agent 调用工具和编排能力上(如 Function Calling、MCP)可能会有突出表现,这可能是其在后训练阶段寻求差异化突破、以小博大的一个重要方向。 周老师认为,短期内不太可能出现一个无所不能的“超级 Agent”,更现实的是在特定场景下(如浏览器操作、代码执行)强化模型的 Agent 能力。DeepSeek 如果能在 1-2 个场景下做出第一方的、能力顶尖的 Agent,就足以令人惊艳。 R2不太可能抛弃 Transformer,更可能是在其基础上进行优化,如 MLA (Mixture-of-Logits Attention) 或更先进的 MoE 结构。有专家提及学术界正在探索将 Transformer 中的某些层替换为 RNN 类结构以优化推理成本和 KV Cache,这或许是 DeepSeek 可能探索的一个细微优化方向。 在有限算力下,进一步提升模型性能和效率。 四、直播里“算力”问题被反复提及。 国内在高端训练芯片方面确实存在“卡脖子”问题,这限制了模型训练的规模和迭代速度。DeepSeek 的许多优化,都是在算力受限的背景下,尽可能挖掘每一块 GPU 的潜力。 但我们对此持乐观态度,正如黄仁勋所言,芯片管控反而会加速中国国产芯片的研发和替代进程。 华为等国内厂商已在该领域取得突破。 CUDA 的壁垒曾被认为是英伟达的“护城河”,但随着 AI辅助编程甚至 AI 生成 CUDA 代码技术的发展,以及国内厂商在兼容 CUDA 方面的努力(已有芯片实现 70% 以上的零兼容),这一壁垒正逐渐被削弱。 时间在我们这,中国庞大的人才储备和持续投入,终将攻克技术瓶颈。 五、 理性看待 V4 鉴于此前“小作文”的过度渲染,我们也表达了对公众期望过高的担忧。 过高的期望可能给 DeepSeek 团队带来不必要的压力。如果 V4 发布后未达到某些传言中的“神级”水平,可能会引发一些负面情绪。 但我们相信,以 DeepSeek 的内部要求,他们不会发布未达标的产品。“它如果没达到爆料的水平,它不会发”。 AI 的发展是循序渐进、厚积薄发的过程,而非一蹴而就的“核弹爆炸”。 DeepSeek V3 已经打响了第一炮,公众应给予其更多的时间和空间去迭代和优化,尤其是在算力相对紧缺的条件下。 每一次进步都值得肯定。 我们可以清晰地感受到,DeepSeek 的发展路径是务实而富有远见的。 它不追求一时的喧嚣与热度,而是将目光投向 AGI 的宏伟目标,在数学、代码、多模态等核心能力上持续深耕。 尽管面临算力、数据等挑战,但其团队展现出的技术实力、优化能力和对 AGI 的坚定信仰,让人对其未来充满信心。 对于即将到来的 V4 和 R 系列模型,我们或许不应期待天马行空的“魔法”,而应关注其在关键技术点上的扎实进步——更强的逻辑推理、更自然的跨模态交互、更高效的工具调用。 每一次迭代,都是中国 AI 力量向更高峰攀登的坚实一步。让我们保持理性期待,给予这些探索者们足够的耐心与支持,共同见证 AI 技术如何一步步改变世界。 而 DeepSeek,无疑是这场变革中值得我们高度关注的关键角色。

00
Max_means_best
1天前
大家都关心的DeepSeek-R2,我和梁赛、牙医还有Transformer周老师一起进行了一次直播讨论

一口气聊了一个多小时,下面是我们聊了什么⬇️

一、首先我们聚焦于近期网络上关于 DeepSeek 的一些“劲爆”传闻,尤其是被戏称为“草莓哥”的爆料。这些传言包括“推理性能提升 400 倍”、“成本暴降 97.4%”、“彻底放弃 Transformer 架构”、“一键实现室温超导材料发现”等等,听起来令人热血沸腾。

然而,我们对此普遍持谨慎乃至怀疑态度。

牙医老师从infra的角度进行了精辟分析。他以 H100 显卡为例(约 2 PetaFLOPS FP16 性能,约 2 TB/s 的显存带宽),指出计算强度(算力/访存带宽)是衡量算法瓶颈的关键。如果真如传言所说,每 TFLOPs 的推理能力提升 400 倍,意味着算力效率大幅提升,计算单元会更快完成任务,从而更频繁地等待数据读取,这将使得访存带宽成为更严重的瓶颈。除非访存技术有同等级别的突破,否则单纯的算力效率提升带来的实际效益将大打折扣。
牙医老师直言,爆料者可能既不懂 Transformer 的核心瓶颈,也不了解所谓的“递归认知网格”——一个在学术界几乎无人提及的概念。因此,此类言论的置信度“约等于零”。
周老师认为,在没有业界公认的、可完全替代 Transformer 的成熟方案出现之前,DeepSeek 不太可能贸然进行如此颠覆性的底层创新。更现实的路径是基于 Transformer 进行优化,例如改进多头注意力(MLA)、采用更高效的 MoE (Mixture of Experts) 结构等,这些本就是优秀工程师的“基操”。
对于“一键实现室温超导”这类说法,我们一笑置之,认为这超出了当前科技水平。
至于成本下降,虽然 DeepSeek Janus 架构确实致力于降低多模态输入的成本(例如将图片输入输出整合,减少重复处理),但 97.4% 的降幅缺乏具体依据,更多是吸引眼球的说法。
我们一致认为,这些“小作文”更多反映了大众对中国 AI 技术突破的热切期盼和一定程度的焦虑情绪,而非技术现实。

二、抛开那些流言,DeepSeek 的核心目标——实现通用人工智能 (AGI)——才是理解其技术布局的关键。
通往 AGI 的路上需要攻克三大难关⬇️
1️⃣ 数学与代码能力:
这是衡量模型逻辑推理和问题解决能力的核心。DeepSeek 在此早有布局,例如其发布的 Prove-Math 模型,专注于数学定理证明,显示了其在该领域的决心。
2️⃣ 多模态能力:
实现 AGI 需要模型能够理解和生成多种信息形式。
3️⃣ 强大的语言模型:
这是所有能力的基础。
按照我对于DeepSeek团队的理解,他们对 AGI 是有着坚定执着的。
DeepSeek 的策略是从 AGI 的最终需求出发,反推当前需要实现哪些能力、攻克哪些瓶颈。这种“以终为始”的研发思路,使其在技术选择上更注重基础性和前瞻性,而非短期商业回报。
这与 OpenAI 当前的商业化运作模式形成了对比。OpenAI 作为行业领头羊,面临盈利、产品迭代和投资人等多重压力,其行动往往带有更强的市场和营销导向。
DeepSeek 则展现出更纯粹的学术和研究气质,其内部管理也更偏向自由探索,鼓励团队在不同方向上尝试。

三、基于对 DeepSeek 战略和当前技术趋势的理解,我们对 V4 及可能的 R 系列模型在以下几个方面寄予厚望⬇️
1️⃣ 多模态能力的融合与提升:
当前多模态模型(如谷歌的 Veo,以及Dpsk春节前发布的 7B Janus)在某些单点能力上表现突出,但端到端的原生多模态、尤其是高质量的跨模态生成仍有较大提升空间。
牙医老师指出,Janus 的识别能力(文图生 Prompt,图生文)很强,但文生图效果则相对落后。
但高质量、大规模、精细标注的多模态训练数据是巨大瓶颈。
国内数据虽多,但清洗和标注成本高昂。此外,模型架构(如 Diffusion Transformer vs. 自回归)的选择也仍在探索。
V4 我们很希望是一个原生的多模态模型。即使不能一步到位达到“摧枯拉朽”的效果,能“做出来”本身就是进步,后续迭代优化可期。
大家认为,只要 DeepSeek 能把多模态的“架子”搭起来,就有提升的机会。

2️⃣ 数学与代码能力的再进化:
这是 AGI 的基石,也是 DeepSeek 持续发力的方向。
V3 模型在 3 月份的更新版本(0324 版)在代码和数学能力上已接近 Claude3.5 水平。
R2 或后续模型有望在代码生成、数学推理上追赶甚至部分超越 Claude 3.7 等顶级模型。
牙医老师甚至大胆猜想,DeepSeek 可能认为只有编码和数学的极致强大才是真正的 AGI 核心,其他能力(如绘画)可能并非其首要关注点。
R2 可能会在特定高难度数学问题求解或新的编程基准测试上展现突破。

3️⃣Agent、工具调用与编排能力的增强:
模型与外部世界交互、调用工具、执行复杂任务是 AGI 的重要特征。
周老师认为,DeepSeek 一直对标世界最好的 AGI,因此在 Agent 调用工具和编排能力上(如 Function Calling、MCP)可能会有突出表现,这可能是其在后训练阶段寻求差异化突破、以小博大的一个重要方向。
周老师认为,短期内不太可能出现一个无所不能的“超级 Agent”,更现实的是在特定场景下(如浏览器操作、代码执行)强化模型的 Agent 能力。DeepSeek 如果能在 1-2 个场景下做出第一方的、能力顶尖的 Agent,就足以令人惊艳。
R2不太可能抛弃 Transformer,更可能是在其基础上进行优化,如 MLA (Mixture-of-Logits Attention) 或更先进的 MoE 结构。有专家提及学术界正在探索将 Transformer 中的某些层替换为 RNN 类结构以优化推理成本和 KV Cache,这或许是 DeepSeek 可能探索的一个细微优化方向。
在有限算力下,进一步提升模型性能和效率。

四、直播里“算力”问题被反复提及。
国内在高端训练芯片方面确实存在“卡脖子”问题,这限制了模型训练的规模和迭代速度。DeepSeek 的许多优化,都是在算力受限的背景下,尽可能挖掘每一块 GPU 的潜力。
但我们对此持乐观态度,正如黄仁勋所言,芯片管控反而会加速中国国产芯片的研发和替代进程。
华为等国内厂商已在该领域取得突破。
CUDA 的壁垒曾被认为是英伟达的“护城河”,但随着 AI辅助编程甚至 AI 生成 CUDA 代码技术的发展,以及国内厂商在兼容 CUDA 方面的努力(已有芯片实现 70% 以上的零兼容),这一壁垒正逐渐被削弱。
时间在我们这,中国庞大的人才储备和持续投入,终将攻克技术瓶颈。

五、 理性看待 V4
鉴于此前“小作文”的过度渲染,我们也表达了对公众期望过高的担忧。
过高的期望可能给 DeepSeek 团队带来不必要的压力。如果 V4 发布后未达到某些传言中的“神级”水平,可能会引发一些负面情绪。
但我们相信,以 DeepSeek 的内部要求,他们不会发布未达标的产品。“它如果没达到爆料的水平,它不会发”。
AI 的发展是循序渐进、厚积薄发的过程,而非一蹴而就的“核弹爆炸”。
DeepSeek V3 已经打响了第一炮,公众应给予其更多的时间和空间去迭代和优化,尤其是在算力相对紧缺的条件下。
每一次进步都值得肯定。
我们可以清晰地感受到,DeepSeek 的发展路径是务实而富有远见的。
它不追求一时的喧嚣与热度,而是将目光投向 AGI 的宏伟目标,在数学、代码、多模态等核心能力上持续深耕。
尽管面临算力、数据等挑战,但其团队展现出的技术实力、优化能力和对 AGI 的坚定信仰,让人对其未来充满信心。
对于即将到来的 V4 R 系列模型,我们或许不应期待天马行空的“魔法”,而应关注其在关键技术点上的扎实进步——更强的逻辑推理、更自然的跨模态交互、更高效的工具调用。
每一次迭代,都是中国 AI 力量向更高峰攀登的坚实一步。让我们保持理性期待,给予这些探索者们足够的耐心与支持,共同见证 AI 技术如何一步步改变世界。
DeepSeek,无疑是这场变革中值得我们高度关注的关键角色。
59
Max_means_best
1天前
很开心,有机会和几位老师一起讨论关于R2的事情
过去几个月之内的小道消息非常多
大部分其实在业内人来看,就是一眼假╮(¯▽¯)╭ 明显是不懂的人用AI去写的消息(¬_¬)
如果你对R2 的消息有关注的话,欢迎今天晚上来看我们的直播🤝
21
Max_means_best
3天前
最后@Vincent-oswin ,解锁新卡面!

Max_means_best: 这几个人刚刚和AI一起被关了三天 参加了五源资本主办,AI hacker house@杨远骋Koji Spark lab@Ryan.eth 联合主办的72小时生存挑战 After party(其实是为图1️⃣我的两个好homie来的) 现场听五源孟醒总分享了为什么他想办这个活动,以及活动里遇到的有趣的地方⬇️ 1️⃣AI 生存挑战活动的核心理念是“让疯狂的你开始被相信”,想要测试仅凭 AI 是否能解决从基本生存到自我实现等各类问题。 孟醒总认为这个活动本身很“疯狂”,因为在初期,他们并不清楚 AI 对普通人生活的具体影响程度。 他把这个挑战和 26 年前互联网初期的生存挑战类比,思考 AI 是否会带来又一次深刻的生活变革,但目前尚无定论。 2️⃣资源匮乏是创业者发光的时刻 ,在物资极度短缺(如仅有100元预算、无额外物资)和网络条件差(如10K网速)的环境下,参与者仍能完成目标,证明了创业者在困境中解决问题的能力,不会因缺乏资源而找借口。 3️⃣而在极差条件下仍能运行的产品,证明了其健壮性,是进行概念验证(POC)和测试产品适应性(如出海、下沉市场)的好方法。 4️⃣完成比完美更重要,即使条件不理想或加入仓促,能够坚持完成挑战、形成闭环,是创业者非常重要的素质。 5️⃣保持心态很重要,有参与者展现了先“佛系”后发力的“后来居上”精神,说明在创业过程中,保持自己的节奏,不受外界干扰,拥有长期主义的心态至关重要。 6️⃣AI 时代下人的温度与互助依然是不可替代,尽管挑战设计为个人与 AI 的互动,但参与者之间通过各种方式(如留言板)互助互利,形成了类似“开源社区”的氛围,共享资源、分享经验。 7️⃣即使 AI 功能强大,但人与人之间的情感连接、互助精神和“爱的流动”是 AI 无法替代的。人与 AI 的结合才能创造更好的环境。 这几位选手的成果也很有意思,比如我的好homie们想要通过AI挣钱,但卡在咸鱼的安全机制上面,所以导致没有挣成功钱🤣 有一个大厂的产品经理小姐姐做了一个牛马时薪计算器,能算出你今天的时薪是多少,这也算是从生活中找到的灵感。 有两个bro做的是艺术片和音乐 但我觉得最好的产品是一个从中传转产品的一个小姐姐@cece陈 她做的是一个网红模拟器。 这个东西是模拟你开直播当网红的感觉,那种一呼百应,然后粉丝包围的感觉。 我觉得这个是一个非常棒的东西,它其实真正展示了AI平权的意义。 这种在过去门槛非常高的体验,现在通过AI能让任何一个人体验到,只不过你要付一下token的费用就可以了 很抱歉这么晚才发,打工人真的只能找零碎时间来总结😢

00
Max_means_best
3天前
这几个人刚刚和AI一起被关了三天

参加了五源资本主办,AI hacker house@杨远骋Koji
Spark lab@Ryan.eth 联合主办的72小时生存挑战
After party(其实是为图1️⃣我的两个好homie来的)

现场听五源孟醒总分享了为什么他想办这个活动,以及活动里遇到的有趣的地方⬇️

1️⃣AI 生存挑战活动的核心理念是“让疯狂的你开始被相信”,想要测试仅凭 AI 是否能解决从基本生存到自我实现等各类问题。
孟醒总认为这个活动本身很“疯狂”,因为在初期,他们并不清楚 AI 对普通人生活的具体影响程度。
他把这个挑战和 26 年前互联网初期的生存挑战类比,思考 AI 是否会带来又一次深刻的生活变革,但目前尚无定论。
2️⃣资源匮乏是创业者发光的时刻 ,在物资极度短缺(如仅有100元预算、无额外物资)和网络条件差(如10K网速)的环境下,参与者仍能完成目标,证明了创业者在困境中解决问题的能力,不会因缺乏资源而找借口。
3️⃣而在极差条件下仍能运行的产品,证明了其健壮性,是进行概念验证(POC)和测试产品适应性(如出海、下沉市场)的好方法。
4️⃣完成比完美更重要,即使条件不理想或加入仓促,能够坚持完成挑战、形成闭环,是创业者非常重要的素质。
5️⃣保持心态很重要,有参与者展现了先“佛系”后发力的“后来居上”精神,说明在创业过程中,保持自己的节奏,不受外界干扰,拥有长期主义的心态至关重要。
6️⃣AI 时代下人的温度与互助依然是不可替代,尽管挑战设计为个人与 AI 的互动,但参与者之间通过各种方式(如留言板)互助互利,形成了类似“开源社区”的氛围,共享资源、分享经验。
7️⃣即使 AI 功能强大,但人与人之间的情感连接、互助精神和“爱的流动”是 AI 无法替代的。人与 AI 的结合才能创造更好的环境。

这几位选手的成果也很有意思,比如我的好homie们想要通过AI挣钱,但卡在咸鱼的安全机制上面,所以导致没有挣成功钱🤣

有一个大厂的产品经理小姐姐做了一个牛马时薪计算器,能算出你今天的时薪是多少,这也算是从生活中找到的灵感。

有两个bro做的是艺术片和音乐

但我觉得最好的产品是一个从中传转产品的一个小姐姐@cece陈 她做的是一个网红模拟器。
这个东西是模拟你开直播当网红的感觉,那种一呼百应,然后粉丝包围的感觉。
我觉得这个是一个非常棒的东西,它其实真正展示了AI平权的意义。
这种在过去门槛非常高的体验,现在通过AI能让任何一个人体验到,只不过你要付一下token的费用就可以了

很抱歉这么晚才发,打工人真的只能找零碎时间来总结😢
33
Max_means_best
5天前
Max_means_best
5天前
因为要等飞机没地方去,所以来@杨远骋Koji 的AI hacker house吹会空调
发现在正好有活动!
太棒了!!
十字路口席地而坐第一期!
这期是Agent主题
后面会继续办🥸
小伙伴们多来玩
00:09
73