即刻App年轻人的同好社区
下载
App内打开
产品二姐
135关注1k被关注2夸夸
公众号知乎小宇宙同名
AlphaWiseWin,book2skills,claudeleakage
极客时间:成为AGI产品经理
置顶
产品二姐
1年前
费曼学习法,相信代码和自媒体。

坚持原创的科技博主,也正在孵化自己的产品。

极客时间有一门「成为AGI产品经理」
(看了也不一定能成为,但可以带你走在成为的路上)

传播较广的几篇文章,有可能你也看过:

1. 产品经理研读:Agent的九种设计模式(图解+代码):mp.weixin.qq.com
2. Agent开发者坦白:窘境中前行:mp.weixin.qq.com
3. 用一张图理解所有的AI“聊天”产品:mp.weixin.qq.com
4. 我在调研了十几个知识库对话产品后整理出来的功能清单:mp.weixin.qq.com
5. RAG组合拳:AGI应用走向落地的40%:mp.weixin.qq.com
6. 做大模型AI应用一定要了解的成本计算公式:mp.weixin.qq.com
514
产品二姐
7天前
V4终于出来了,为了避免被卡脖子,算力资源上应该是克服了不少困难。

想起一年前发的视频,那时候预测是2025年底出货,现在出来也不算晚,希望成为国货之光。

至少Deepseek V3的低成本优势,让我们在早期维持盈利,如果换做sonnet,可能是完全不一样的成本开支。

期待能从“性价比之王”赶超世界顶尖水平。
00
产品二姐
14天前
这是我第三次阅读A社的skills介绍,
从【概览】到【企业级技能】

platform.claude.com

读完又有新的体会。

如果你也能花十分钟读完,就可以做到:

1. 几乎不用看任何关于skills概念的其他文章。
2. 有效识别什么算一个好的skill。
3. 你自己创建skill应该注意什么。
4. 拿到一个skill 应该如何让它变得更适合你。

PS: 虽然claude不对华友好,但是仍然提供了中文版本,无阅读障碍。
02
产品二姐
16天前
说一个庸俗的想法,Claude开启真人验证后,我想起了零几年在人大门口做假证的那帮人,不知道他们还开展这个业务吗?

有人推荐改用codex,事实上用过codex的人,就知道二者差距,至少现在是这样。
00
产品二姐
17天前
一旦明白harness诞生的初衷,就会理解为什么Harness要这么做,以及怎么改进它。

参考A社的两篇关于Harness的文章标题都写了“long-running”(图1)

从开发者角度,harness 是为了达到无人值守开发的目的。推而广之,需要长期维护的项目也需要用harness。

比如今天有朋友问:

“如果用AI Coding工具在之前很大的一个系统上去迭代,应该怎么做呢。不可能把之前的页面全部做一遍吧。”

那么一旦涉及“长”时间和“长”期项目,就需要保证AI Agent 发挥的稳定性。所以你会看到,在Open AI 和 Anthropic的实践中,看到以下步骤。

其中的基础步骤我已总结成skills,放在这里分享:claudeleakage.com

大家拿到后安装,直接调用skills就可以完成项目基础的harness engineering建设了,定期跑一下,对项目的长期维护有很大好处。

第一步(图2): 做一个项目地图,像一个索引一样。 Agent每开始一个任务,首先来这个看索引,找到它应该去看的内容。比如Agent要新增一个页面,它看到这里会有一个design标准、前端框架文档,就会倾向于从众多文档中读这两个文档。

第二步(图3):在地图里的各个文档中查找具体标准和详细内容。比如架构文档architecture.md中,会有项目采用的前、后端框架等等。

前两步解决了横向的内容广度问题。

接下来的一步要完成纵向的时间维度问题,也就是长任务会拆成若干个子任务,如果把一个长任务都放在一次对话中,会产生记忆爆炸的问题,这时候任务的衔接就会需要用到第三步。

第三步(图4):对话管理。它像一个项目进度记录一样,记录了现在有什么任务还没有完成,当前进行的任务的进度 Progress.md等等。 这样,每次开始新任务,Agent可以触发总结之前的任务进度,以便后续任务作为上下文使用。

以上三步是基础步骤,harness engineering的进阶版需要引入评估器,但这玩意还是挺消耗token的,因为每次都要对已经完成的任务进行评估、测试,耗时、耗力、耗钱,一般情况下我理解用这三步基础的就够。
01
产品二姐
18天前
父亲70岁,身体健康。打算五一期间骑自行车从北京回老家(陕北榆林),总路途815公里,预计12-15天,日行40-90公里,想发帖问一下沿途路况,有骑过以下部分路段,或对路段比较熟悉的朋友,尤其是进入山西穿行太行山这段路的路况,如能告知不吝感激!

以下是高德目前规划出来的路线图,两步路上的路线有点老,另外父亲年龄比较大了,难度要降低,能回去就行。

骑行装备:目前打算是日本丸石内三速城市自行车, 不需要快,只需要稳。

Day1: 北京昌平 -> 涿州, 84公里

Day2: 涿州 -> 保定 86公里

Day3:保定 -> 定州 63公里

Day4:定州 -> 石家庄 74公里

Day5:石家庄 -> 平阳湖景区 69公里

Day6:平阳湖 -> 阳泉 42公里

Day7:阳泉 -> 寿阳县 42公里

Day8:寿阳 -> 晋中 56公里

Day9:晋中 -> 交城县 63公里

Day10:交城县 -> 汾阳 52公里

Day11:汾阳 -> 吕梁 78公里

Day12:吕梁 -> 吴堡 56 公里

Day13:吴堡 -> 绥德 57公里
80
产品二姐
19天前
Claudeleakage.com 上线 《Claude code 之harness engineering 从入门到实践》PDF,开放下载,欢迎大家阅读。

claudeleakage.com

有些同学问,为什么我们要研究Claude code,Claude在泄露源码前就开放agent SDK,也可以配上不同模型使用。我的回答是:你是一个车主,你买特斯拉就够了,但是,你是个造车的,买来仅仅开就不够了。 我们想做的就是:Claude code的“整车改造”。

这是中国制造走向中国创造的路,软件上也同样适用。再说,哪怕你不是造车的,你也可能是个修车的,借鉴其部分思想都是有益的。
23
产品二姐
23天前
果然代码泄露之后有更大的瓜了。

实际上Mythos在3月26号就Anthropic 因数据缓存配置失误,将模型「Claude Mythos」信息的内部文件和博客草稿公开暴露于网络,外界由此在官方公告前得知其存在。Fortune 报道后,Anthropic 当天即下线该数据缓存。

虽然Mythos现在不能用,但是以后呢,估计也不会藏着掖着。

能不能用先放在一边, 第一时间把官方pdf 报告拿来解读一下。

重点解读了第六章:能力评测。代表着模型未来的能力方向。

直接访问链接解读:
claudeleakage.com

这里放几张截图。

最让我注意的两点:
1. 深度检索能力,Mythos Preview用226Ktokens(Opus 4.6的1/4.9)达到更高准确率。也就是token花费少了,效果更好了(图6)。

2. 目前完成度还不够好的能力有:

- 软件工程SWE-bench 多模态测试集,即在 issue 描述中加入截图、设计稿等视觉上下文,测试模型结合图文信息完成工程任务的能力。目前得分59.0%.(图3)

- 智能体搜索:Humanity's Last Exam。2500 道覆盖人类知识边界的多模态题目,号称"最难的 AI 基准"。目前得分64.7%(图7)。

- 电脑自动化:OSWorld。让智能体在真实 Ubuntu 虚拟机中,通过鼠标和键盘完成实际电脑任务:编辑文档、浏览网页、管理文件。以 1080p 分辨率运行,每任务最多 100 步操作。目前得分 79.6%(图8)

官方pdf 报道在这里:
www-cdn.anthropic.com
00
产品二姐
24天前
真正想要把Claude Code的最佳实践为我所用,仍然需要透彻的理解。

假期读了十多个版本的Claude Code源码解析后,发现对于产品经理和业务线的同学,理解仍然有困难。而恰恰是这些同学比开发者更能挖掘使用场景。所以又把网站(claudeleakage.com)上的内容更新的了一版,比起上次的内容,这版内容有以下改进:

1. 内容更加准确。在生产过程中严格遵循代码逻辑,并使用对抗方法(有一个生成Agent,有一个打假Agent)进行校验。
2. 结构更加合理。采用总-分结构,从全景到部分,逐渐深入。
3. 行文更加流畅。前后叙事会更加符合逻辑,比如采用【问题-解决方案】的的方式,再比如处理记忆爆炸时采用渐进的叙事。

另外上次网站发布后,又有新的朋友加入,未来还会做以下内容:

1. 使用remotion更加直观讲解代码。
2. 将上述的设计精髓提取为Skills,让大家直接可用。
3. 直接使用本地部署的Claude code 完成各种业务场景。

欢迎关注!

Learn With Claude Source | Deep Dive into 512K Lines of Leaked Code

13
产品二姐
1月前
半天时间上线了 learn with claude source , 跟着 claude 源代码 向claude 学习它的架构,欢迎大家阅读体验。
claudeleakage.com

最初的一版比较粗糙,大家可以从产品经理的角度看到Claude 是如何做到超级用户友好的。

claudeleakage.comClaude-code-leak-code-and-ux-design

接下来我们还会做以下事情:

1. 把Claude 的设计思想凝结为skills,让所有人利用这些skills都能做出优秀的产品。

2. 我们正在基于claude源码的基础开发更优的 “claude”,任何人配上自己的 API token ,就可以与一个影子版本的claude 对话。

3. 现在我们看到Claude ai已经 是“虾”化了,意味着不久的将来,我们完全可以开箱既有更高质量的 “龙虾”

敬请期待...

mp.weixin.qq.com
00
产品二姐
1月前
最近harness engineering的初步实践,供大家参考。

mp.weixin.qq.com

1. Harness并不难,但它却极大程度把开发者从陪伴式编程中解放了出来。是高ROI的投资。
2. Harness背后的驱动是skills的自我迭代,持续优化,使用合适的skills是前提。
3. Harnnss也并非一劳永逸,要经常维护。

当模型能力的发展开始变缓,我们会发现工程能力又开始以新的速度蜕变:从提示词工程,到上下文工程,harness 工程,每一次进化都让AI这项技术离应用越来越近。
14