即刻App年轻人的同好社区

下载

Lushan

157关注81被关注0夸夸

AI战略| Ex投资| PM,关注agent·新交互
⚛︎optimize my action space
☕︎欢迎交流: lushan-zen

Lushan

1月前

Peter Deng，前ChatGPT产品负责人最近在Lenny's podcast上的一个非常干货的分享，把产品经理分成五类：

1.消费者型PM：这种人是半设计师半产品经理（感觉小红书和微信里有很多）
2.增长型PM：这类人是半数据科学家半产品经理（抖音在线教育里有很多）
3.商业/GM型PM：通常从商业模式思考，关注利润机会价值创造（美团滴滴）
4.平台型PM：擅长建设工具（飞书企业微信钉钉）
5.研究/AI型PM：AI native的产品里有很多

尤其AI时代，最后一种产品经理的画像，有越来越多算法（尤其后训练算法）的人在承担PM的职能。

也正如anthropic的CPO Mike说的，他把产品人员分成两类，一类负责UX、产品体验，即面向用户的产品；另一类PM则放在research团队，帮助构建模型、让模型变得更好、帮助researchers构建东西。

他发现，所有的杠杆和成果都来自于PM与ai researchers的合作，而在产品体验方面的投入收益则少得多。所以他让越来越多的PM加入research团队。

6 00

Lushan

2月前

今年cvpr上能看到的openai/xai/anthropic/deepseek的论文少之又少，有幸撞到一篇。不过好像过了会儿就收走了。。google deepmind的paper倒的确看到了蛮多。另外就是感觉3D/4D类的工作占比好高

0 00

Lushan

2月前

听完最近anthropic、cursor、openai研究员的最新一波播客，越来越多共识是，借助RL后训练可以学到新知识，而不仅仅是激发预训练阶段压缩的潜力。这是好消息。

但也说，RL阶段核心还是reward能不能设置合理、能不能有更好的环境让模型来学习。甚至openai的Karina说，没有遇到数据墙，反而可能是测评墙，核心是如何评估和反馈——但这个会不会意味着，跨不同的环境、场景之间也越来越难泛化？

效果的加速前进，可能要更多依赖chatgpt这种超级app的flywheel effect，而不是模型层的scaleup。语言模型智能的演进速度，是否会开始降档？

不过另一个影响因素是，多模态的融合、模态间的打通是否会带来智能的增进，之前一直是没有work的，最近好像有越来越多积极信号。maybe也是给模型智能scaling law续命的方式之一？

3 00

Lushan

2月前

Karen Hao 2025.05最新出版的《Empire of AI》，关于Openai的大量内幕爆料，把23年底Sam被罢免又回归、Openai一系列高管离职的详细时间线做了梳理。。比电影还drama

1 00

Lushan

2月前

Pichai为数不多比较干货的新访谈，对Google的AI竞争策略有了系统论述

【关于AI时代Google搜索体验】
“在最近推出的搜索AI模式里，人们输入的平均查询长度，是以前的两到三倍...人们更多地参与，并且持续使用。这并不是临时的新奇感，而是行为真的变了。” “人们以前是进来问问题，现在是进来启动一次任务。”

“在搜索中，AI overview已有15亿用户。现在我们测试的是专属的搜索AI Mode，它不仅调用模型来回答问题，还让 AI 真正以搜索为‘原生工具’来完成任务。”

【如何评价和OpenAI等的竞争】

这不是模型快慢的问题，而是谁能构建出可持续运行的AI系统...ChatGPT显然非常成功，但我认为这还在早期阶段。我们看到的是：用户是否持续回来，是否愿意用它来真正处理任务。我们观察的是系统使用广度：用户在搜索、YouTube、Gemini App 里的整体行为。

Google不靠单一产品而是生态系统来覆盖用户生活...真正的差异化，不在单个模型，而在你是否能构建系统性体验。”

【Google想要构建出可持续运行的AI系统，除了模型之外，还做了哪些准备/还有那些底牌？】

“Google 站在成本与性能的 Pareto 最前沿。我们能以最低的单位成本，提供最强的模型服务...我们现在已经进入第七代 TPU，最新的叫 Ironwood，单个部件的算力超过40exaflops。一开始大家并不理解我们为什么要自研芯片。现在来看，这一步让Google在部署 AI 搜索时，具备了一个对手无法复制的底层优势：训练快、运行便宜、可控性高。”

"模型强不强，是阶段性胜负；谁能让它跑起来、用得起、调得动，才是决定胜负的系统底层...我们自己建设了从芯片到云端的整套基础设施。”"我们在 2025 年预计将投入 750 亿美元的资本支出，主要用于服务器、数据中心、芯片和云计算。"

0 00

Lushan

2月前

Anthropic两位核心researchers最新非常干货的访谈--RL核心团队的 Sholto Douglas 和致力于大模型可解释性的 Trenton Brickin，以及Douglas单独接受redpoint的访谈聊Claude4 opus

【关于RL、RLVR和feedback loop】
过去一年最重要的是RL终于奏效了，主要体现在coding和math两个领域。可以分两个维度：
1）任务智力复杂度 - 很多维度上我们已经能达到智力复杂度的高峰；
2）二是模型能够有意义地进行推理和执行的上下文数量或连续动作的数量。Claude 4 Opus在第二个维度上表现得尤为出色。它们确实能够执行多个动作，并明确自身需要从环境中获取哪些信息，然后基于这些信息采取行动。因此，赋予它的时间跨度更长了。到年底，我们将拥有能够完成接近一整天工作量的软件工程agent。

（RL是在挖掘pretrain阶段建立的能力，还是在喂给模型新能力？）DeepMind 的 RL 研究表明：只要奖励信号干净，RL 是可以训练出超越人类的围棋/国际象棋智能体的

（没有标准答案的领域如何做？）关键在于是否能为它构建一个有效的feedback loop。OpenAI 最近发表的一篇关于医学问题的论文就是一个有趣的例证。他们是如何进行评估和打分的？他们推出了新的医学 EVal，采用了分级反馈机制，设计了许多类似于考试中长篇问答题的问题，并根据答案的质量给出评分。这种方法将一个原本不像编程或数学那样具有内在可验证性的领域，转化成了一个更易于验证的领域

（但为什么现在RL的资源还远不如pretrain？）RL比pretrain更迭代化，你可以一层层叠加能力。以OpenAI为例，O1到O3是10倍算力提升，他们验证O1有效之后才决定放手一搏，因此接下来大家都在扩大RL预算了。无论是预训练还是 RL，本质上都是在做“梯度下降”，只是信号稀疏不同。比如围棋中的 RL，只有“赢没赢”这一个信号，很稀疏。不能像预训练那样在每个 token 上都获得密集反馈。但理论上，你完全可以把“下一个 token 预测”换成某种RL变体，用RL做完所有学习

【小模型 vs 大模型，以及跨模态的能力共享】
我们观察到一个很有趣的现象：小模型往往在不同语言之间使用独立神经元来处理，而大模型则会将“相同概念”在不同语言中使用同一组抽象特征。这说明：越大的模型，其抽象能力越强。我们曾在Claude上做过实验：把金门大桥的图片喂进去，模型激活了“金门大桥”这个特征，哪怕这个特征是用文本训练出来的。我们把这称为“跨模态抽象共享”。越大的模型越容易抽象成“高级共享概念”，这和人类处理概念的方法更像
我们现在的模型还远不如人脑大。2 万亿参数的 LLaMA3，估算下来仍比人脑（估计有30~300 万亿突触）要小好几个数量级。参数不足，代表模型会“压缩信息”，没法形成更深层的抽象和泛化

【通用泛化RL模型 vs 垂直领域RL模型】
早在GPT-2时代就有类似讨论。当时模型会被微调用于各种任务，人们发现它在特定任务上的表现大幅提升。但等到了 GPT-4 这种规模，整体算力带来的泛化能力反而优于那些小而专的微调模型。现在看到的 RL 也在重演这个故事。一开始模型在特定任务上表现突出，但随着用于 RL 的总算力增长，已经能看到它在推理能力泛化方面的早期迹象，很快会变得非常明显

长远看，我们应该能够根据给定任务难度，自适应地调用适量工作资源，or适量的flops，未来的趋势会向大语言模型倾斜

【关于Computer use和Agent】
不认为“computer use”在本质上跟“软件工程”有区别——只要你能把一切都表示成 token 输入，模型就能处理。我们已经知道模型能“看见”，它们能在图像中画出边框。它们也能理解复杂概念。computer的区别只是feedback loop比数学和编程更难构造。但这意味着如果努力足够，电脑使用也会被攻克

短期瓶颈其实还很具体：工具链是否完善，接口是否打通。我们确实需要良好的沙箱机制，以及可以调用所有必要工具的能力

交互从”同步使用“->”异步使用“：现在的模型能力其实被严重低估了。人如果看着AI工作很快就失去耐心了，但是如果异步工作，就会极大提升模型的使用体验，会把几个任务同时丢过去让模型尝试

【关于个性化】
模型最终会成为身边最聪明、最具魅力的朋友之一。但现有的模型几乎没有哪个能完全达到那种理想状态，对于模型可以实现的个性化程度以及对用户理解的深度，我们可能仅仅探索了其潜力的 1%
关于提升“品味”，Claude表现如此出色的一个重要原因，在于Amanda及她独特的品味。像打造精美产品一样，独特的、一以贯之的品味至关重要。A/B测试这种反馈机制的弊端，简单的点赞或点踩机制，基本上只会引入一条效果平庸甚至更差的路径

【对Deepseek的评价】
他们有很好的研究taste，很像Noam Shazir，能很好地把握模型设计与底层硬件系统之间的协同关系，给人一种“在既有硬件约束下做到最优”的感觉，从论文中你能清晰看到他们在优化哪类限制条件。我喜欢的点在于——他们的方法够简单。很多机器学习研究者最大的失败模式就是做得太复杂，忽略了底层硬件，而DeepSeek的方法从一开始就是围绕硬件约束设计的

【关于Anthropic内部的mechanterp项目（机械可解释性）】
是一项逆向工程神经网络的工作，试图理解它们的基本计算单元。我们现在的研究进入到了“circuits“阶段，能识别出模型中跨层协作完成复杂任务的多个特征如何协同

3 01

Lushan

2月前

帮湾区创业朋友招一个全职full-stack engineer（前端熟练使用React and TypeScript，后端熟练使用 FastAPI 和 MySQL。熟悉AWS）
工作经验至少三年以上
熟练使用ai产品
可base国内
薪资优厚，欢迎推荐
详情欢迎加wx私戳：lushan-zen

0 00

Lushan

3月前

Claude4来了

0 00

Lushan

3月前

非常真实了，隐约能听到的一层潜台词是，minimax可能太忙了前川老师没时间思考和正视长期对AGI安全的担忧。。可能也是选择出来的一个原因吧

93. 离开字节、MiniMax的张前川，发出AGI对人类威胁的预警

张小珺Jùn｜商业访谈录

1 10

Lushan

3月前

Cursor对下一代交互的探索和思考每次都很有启发。Cursor创始人Michael Truell提到，未来软件开发肯定不是现在这么晦涩，但也一定不是很多人认为的「纯自然语言对话」的方式、这会导致对黑盒细节的掌控不足。

他畅想的是，会有一个居中的解决方式，是可以用类自然语言的“伪代码”的形式来表述要实现的逻辑，甚至是带有更多的视觉化的元素来instruct模型如何开发实现。这一点，很像产品经理以前用PRD和原型图详细得把产品逻辑描述给开发同学的过程。未来可能会有一层“伪代码”的形式把所有这些PRD和原型图直接逻辑化。

于是，产品经理和开发之间的边界也许会越来越模糊——

Engineer要培养一种taste，“未来工程师将越来越像逻辑设计师。他们将专注于定义系统的意图——你希望一切如何运作。重点将从底层流程的「如何实现」转移到高层抽象的「实现什么」”

而PM则需要更了解模型的原理和能力边界，才能避免做出超出技术边界的设计。

12 06