即刻App年轻人的同好社区
下载
App内打开
Roxane
549关注960被关注1夸夸
重度Gemini&Claude用户|在一家初创探索AIToB|前RPA产品经理&咨询顾问|
游戏行业精神股东|Always贪心的INTP
置顶
Roxane
18天前
承诺给 @Xinran.Z 社区投稿的信源清单总算有个雏形了!

把我最近一年看过的各种AI相关的播客、Newsletter、公众号中比较有帮助的都整理了一下(X的还没整理),(🔗好像会被屏,放在评论区了)

希望能帮助到更多想获得一手信息的人🫰

纯人肉整理,必有缺漏,后续慢慢完善~
424
Roxane
3天前
# 胡言乱语系列
多Agent已经基本形成共识,
但这是不是也代表着大家对AGI的普遍悲观?
30
Roxane
3天前
# 胡言乱语系列
又臭又长的结构化提示词就像古法中药,
说不清楚是什么成分发挥作用,夹杂着大量杂质。

也能治病,但是总觉得科学之间存在一定距离。

能写出极短而有效的提示词才是真高手。
(我目前还不是🥲)
10
Roxane
3天前
这个其实不难,把图片提取上传,转markdown时,插入图片的URL链接,RAG返回就能带图了。没做应该不是技术问题。

评论尸: 元宝的知识库 RAG,居然能把 PDF 里的图片返回来。 同为腾讯作为知识库应用的 ima 好像还做不到……(更正,可以。) NotebookLM 还不行,至少我没触发过。

10
Roxane
4天前
大公报转发的法新社照片...这水平
32
Roxane
4天前
推荐一篇非常优质的技术科普文章,Maarten Grootendorst的《A Visual Guide to Mixture of Experts (MoE)》用超过50张可视化图,把MoE技术的原理解释得非常易懂。
虽然文章较老(去年10月发的),但还是非常适合对MoE一知半解的人从头理解。

⬇️AI导读:

## MoE:一场关于“专家”与“路由”的精妙协作

MoE,即“专家混合模型”,本质上是一种提升LLM质量的技术,它通过整合多个子模型(也就是“专家”)来实现。构成MoE的核心,无非是两部分:

**专家(Experts)**: 这些“专家”并非我们想象中那种专精于“心理学”或“生物学”的领域大拿。它们通常是独立的FFNN(前馈神经网络)层,其“专长”在于处理特定上下文中的特定token。简单说,它们更擅长处理词汇层面的语法信息,而非某个宏大领域的知识。
**路由器(Router)或门控网络(gate network)**: 这是MoE的“大脑”,负责决定哪些token应该被发送给哪些专家处理。它会根据输入生成一个概率分布,然后选择最匹配的专家。

想象一下,一个标准的Transformer解码器架构中,FFNN层是处理上下文信息的关键。传统的FFNN是“密集模型”,意味着所有参数都会被激活。而MoE则将其拆解成多个“专家”,形成“稀疏模型”——每次只激活其中一部分专家。这样一来,模型在训练时,每个专家学习不同的信息;在推理时,只调用最相关的专家。

一个token在MoE模型中,会像走迷宫一样,穿过多个解码器块,每个块里都有不同的专家组合。这意味着不同的token会走上不同的“路径”,最终生成文本。这种动态选择,让模型在保持性能的同时,大大提升了效率。

## 路由的艺术与负载均衡的挑战

路由机制是MoE的灵魂,它决定了模型如何高效地利用这些专家。但问题也随之而来:如果路由器总是偏爱某些专家,而冷落另一些,就会导致专家利用率不均,甚至有些专家根本得不到充分训练。这在训练和推理阶段都会造成问题。

为了解决这个问题,**负载均衡**成了关键。目标是让所有专家在训练和推理时都能获得同等的重要性。

* **KeepTopK策略**: 这是最直接的负载均衡方法之一。它通过引入可训练的(高斯)噪声,并设定一个阈值K,只保留概率最高的K个专家,将其他专家的权重设为负无穷,从而确保它们在SoftMax后概率为0。这样,每次只会激活少数几个专家。
* **Token Choice**: KeepTopK策略的延伸,它允许将每个token路由到一个(top-1路由)或多个(top-k路由)选定的专家。这种方式的好处是,可以对不同专家的贡献进行加权和整合。
* **辅助损失(Auxiliary Loss)**: 也叫“负载均衡损失”,它被添加到网络的常规损失函数中。通过计算每个专家的“重要性分数”和“变异系数(CV)”,辅助损失会强制专家之间保持同等的重要性。CV值越高,说明专家间重要性差异越大,模型就会努力降低CV,实现均衡。

除了专家选择的均衡,**专家容量(Expert Capacity)**也是一个重要考量。如果某个专家接收的token过多,超出了它的处理能力,多余的token就会被发送给下一个专家,甚至直接进入下一层(这被称为“token溢出”)。限制专家容量,能有效防止过度训练和资源浪费。

## 从Switch Transformer到Soft-MoE:架构的演进

MoE的早期应用存在训练不稳定的问题,而**Switch Transformer**的出现,简化了MoE的架构和训练流程,显著提升了稳定性。它将传统的FFNN层替换为“Switching Layer”,这是一个稀疏MoE层,每个token只选择一个专家(Top-1路由)。Switch Transformer还引入了**容量因子(Capacity Factor)**,直接影响专家容量,避免了计算资源的浪费或性能下降。其简化的辅助损失函数,通过平衡token分派比例与路由器概率,进一步实现了均匀路由。

MoE并非语言模型的专属。**Vision-MoE (V-MoE)**将MoE引入了视觉模型(如ViT)。ViT将图像分割成小块(patches),这些patch被当作token处理。V-MoE用稀疏MoE替换了ViT编码器中的密集FFNN,通过增加专家数量,实现了视觉模型的规模化扩展。为了应对图像patch数量庞大和低容量带来的token溢出,V-MoE引入了**批次优先级路由(Batch Priority Routing)**,优先处理更重要的patch,确保关键信息不丢失。

更进一步,**Soft-MoE**则尝试从离散的token分配转向“软性”分配。它通过将输入(patch嵌入)与一个可学习矩阵Φ相乘,生成“路由器信息”,然后通过SoftMax更新patch嵌入,使其成为所有patch嵌入的加权平均。这样,所有patch都被“混合”后发送给每个专家,输出再与路由器矩阵相乘,实现了“软性”的token处理,而非硬性分配。

## Mixtral 8x7B:稀疏参数与活跃参数的权衡

MoE模型最吸引人的地方,莫过于其独特的计算需求。以**Mixtral 8x7B**为例,它拥有8个专家,每个专家大小为5.6B参数。这意味着,你需要加载**8 x 5.6B (46.7B)**的“稀疏参数”(即模型总参数)到内存中。但在推理时,它只会激活其中的2个专家,所以实际使用的“活跃参数”只有**2 x 5.6B (12.8B)**。

这揭示了一个关键的权衡:MoE模型需要更多的显存来加载所有专家,但推理速度却更快,因为它只激活了一小部分参数。这对于追求高性能和高效率的大模型部署来说,无疑是一条充满潜力的路径。

A Visual Guide to Mixture of Experts (MoE)

04
Roxane
6天前
刚刚刷到一个新鲜出炉的播客,Linear 产品负责人Nan Yu的访谈分享。很有启发,搬运一下文字总结⬇️(原视频在油管)

播客中提到,Linear 服务着包括 OpenAI、Ramp 在内的超过 15000 家公司,但自己却只有两位 PM。他说Linear很早就预见到许多传统 PM 工作正在被 AI 侵蚀,所以刻意放慢了招聘。

Nan Yu把AI时代产品经理的核心技能分为3类:

第一类:AI 无法取代的技能,核心是“感性”

这些技能都和人的情感、直觉、人际关系深度绑定,AI 短期内还摸不到边。

- 产品品味 (Product Taste):这不是逻辑分析,而是一种近乎“蜥蜴脑”的直觉。你看到一个产品或交互,能立刻感觉到用户会喜欢还是讨厌,然后再反向推导出背后的原因。
- 品牌 (Branding):这包括产品品牌和个人品牌。前者是如何通过命名、设计等微小触点,在用户心中建立情感共鸣;后者则越来越重要,尤其在 AI 领域,很多时候是创始人的个人影响力先于产品本身获得了市场认知。
- 主人翁意识和风险偏好 (Ownership & Risk Appetite):只对结果负责是不够的,你还得敢于为了追求最佳结果而承担风险。这意味着你有时会失败,需要有爬起来再战的勇气,尤其是在大公司的政治生态里。
- 利益相关者管理 (Stakeholder Management):无论公司大小,你都需要争取资源、管理预期、平衡各方势力。这需要你精确计算自己有多少“政治资本”可以挥霍,什么时候该坚持,什么时候该妥协。
- 情商 (EQ):这是以上所有能力的地基。无论是理解用户,还是搞定内外部的合作者,本质上都是情商的体现。Nan Yu 提供了一个练习方法:把自己代入用户的角色,分析他们的动机、恐惧和激励因素,像经济学家一样思考他们的行为。

第二类:正在被 AI 颠覆的技能,核心是“理性”

这些工作依赖逻辑、推理和信息处理,恰好是 AI 的强项。过去,这些是 PM 的核心竞争力,但现在,它们正迅速商品化。

- 战略与优先级 (Strategy & Prioritization):这可能是最反直觉的一点。很多人觉得战略是 PM 最核心、最“人性”的工作。但 Nan Yu 认为,所谓的战略思考,很多时候就是画一堆 2x2 矩阵,收集证据,进行逻辑推演。AI 在这方面远比人类更严谨、更高效、考虑得更周全。现在,AI 是你最好的战略“陪练”。
- 数据分析与整合 (Data Analysis & Synthesis):让 AI SQL、分析数据、找出洞察,已经不是什么新鲜事。过去懂不懂 SQL 是两个 PM 之间的巨大差异,现在这个差异消失了。
- 市场研究 (Market Research):过去需要咨询公司或实习生花几个月做的行业扫描和初步研究,现在用 AI 工具几分钟就能完成。当然,那种需要和高管吃饭、建立长期信任关系的深度研究仍然有价值,但那已是另一门手艺。
项目管理 (Project Management):最好的项目经理是什么样的?“注重细节”、“对所有事了如指掌”、“像一台机器”。这些描述听起来就像在说计算机。过去计算机不够智能,无法理解“紧急”这类语义。现在它们能了,AI 的一点点智能,解锁了计算机与生俱来的超强“勤奋”。
- 信息总结与文档撰写 (Summarizing & Documentation):这两项工作基本已经被颠覆了。无论是整理用户反馈,还是根据代码变更更新文档,本质都是信息的搬运和同步。这种需要极度勤奋但智能要求不高的工作,正是为 AI 量身定做的。Linear 不愿意为此招人,就是想倒逼自己尽早用计算机来解决。

第三类:PM 必须掌握的新技能,核心是“人机协同”

- 上下文工程 (Context Engineering):这比提示词工程 (Prompt Engineering) 更进一步。你需要思考,为了让 AI 更好地完成任务,应该喂给它哪些信息。
- AI 工作流设计 (AI Workflow Design):如何设计一个动态流程,让 AI 在正确的时间、通过正确的工具,自动获取它所需要的上下文。
- AI 代理管理 (AI Agent Management):未来你可能同时管理多个 AI 代理。你需要判断,对某个任务的指令需要多详细?是给个大方向就行,还是需要微操?这直接决定了人机协作的效率。

此外,他还分享了Linear产品里目前如何用AI辅助PM的几个场景:
1. AI 作为研究伙伴:通过 Linear MCP(机器可读协作协议),可以直接在 Claude 里对 Linear 项目中的用户请求进行分析。只需一两句指令,AI 就能自动抓取所有相关 issue 和客户反馈,并提炼出核心主题。
2. AI 自动化项目管理:Linear 新推出的“产品智能 (Product Intelligence)”功能,可以在问题分类 (Triage) 环节大显身手。当一个新 issue 进来,AI 会自动建议负责的团队和个人,并解释原因(比如“他是这个项目的负责人,处理过很多类似问题”),甚至能直接找出重复的 issue,建议合并。
3. AI 成为开发队友:他演示了如何直接在 Linear issue @ 一个名为 Charlie 的第三方编码代理。
- 首先,他问 Charlie 一个关于现有代码逻辑的问题(“我们的系统是否支持周期同步到日历?”)。几分钟后,代理翻遍代码库,给出了肯定的答复。这省去了打断工程师工作的麻烦。
- 然后,他把一个“为个人网站增加深浅色模式切换按钮”的需求,直接指派给另一个编码代理 Codegen。
- 代理自动理解需求、规划步骤、编写代码、修改 CSS,最后提交了一个 Pull Request。PM 的角色从写 PRD,变成了给 AI Agent 下发明确的指令并验收结果。
08
Roxane
7天前
卡瓶颈一周了
ToB领域的agentic实在是太难追求_(:з」∠)_
自主性和确定性到底是一种平衡还是一种选择?🤔
40
Roxane
8天前
另一个我印象很深的观点是作者说. 青少年在经济上是“无用的”。
​在工业化时代之前,青少年通常会作为学徒直接进入社会。他们虽然是初学者,但已经开始参与真实的经济活动,向铁匠、画家、木匠等师傅学习一门手艺。
​在这种模式下,他们是成年人社会的“初级成员”,能够亲眼看到成年人如何工作、如何创造价值、如何解决实际问题;他们与成年人之间的界限是模糊的,学习的过程本身就是一种社会化的过程。

但是​由于现代社会工作的高度专业化(specialization),青少年很难像学徒一样直接参与父母的工作。你很难让一个14岁的孩子去“体验”律师、软件工程师或金融分析师的日常工作。​因此,青少年被集中到学校里。在这个封闭的环境中,他们主要应对的是一些“人为设置的问题”(Artificial Problems),比如考试和分数。这些问题在真实世界里几乎没有直接对应物。​从社会的经济功能来看,这些未成年人在长达十几年的时间里,不创造任何经济价值。他们只是纯粹的消费者。
PG的观点很尖锐:是社会创造了这样一个庞大的群体,让他们在成年前一直处于一种“无用”的状态。

Roxane: 重读《黑客与画家》,当年看的时候还年轻,很多内容感触不深,现在发现很多非常有趣的细节。 作者说黑客与传统程序员的区别是传统程序员更像建筑师,而黑客则更像用代码语言进行创作的艺术家。 emmm,传统的大部分应该是瓦工🤣

01
Roxane
8天前
重读《黑客与画家》,当年看的时候还年轻,很多内容感触不深,现在发现很多非常有趣的细节。

作者说黑客与传统程序员的区别是传统程序员更像建筑师,而黑客则更像用代码语言进行创作的艺术家。

emmm,传统的大部分应该是瓦工🤣
64
Roxane
10天前
用AI多了,有时候会产生一种幻觉,
好像自己的智力水平真的提高了🤣
其实你还是你,变聪明的是AI
60