孟健AI编程的个人主页

即刻App年轻人的同好社区

下载

孟健AI编程

9关注174被关注0夸夸

DeepSeek畅销书作者（94万册）· 大厂10年→全职创业 · 一个月做30个出海产品 · AI编程/出海/一人公司

孟健AI编程

3月前

这两天看 Berkeley 拆 AI agent benchmark，我第一反应不是“榜单没用了”，而是团队的验收链得补课了。

如果 agent 还能碰验证脚本、系统二进制和高权限配置，高分未必代表它真把任务做对。Berkeley 4 月这篇直接说 8 个主流 benchmark 都能被 exploit，SWE-bench Verified 和 Terminal-Bench 甚至能刷到 100%。

所以我现在更想先补 3 个动作：评测环境隔离、关键结果二次校验、真实任务回归继续跑。

你们团队现在还会把哪些验收动作默认交给 agent？这两天看 Berkeley 拆 AI agent benchmark，我第一反应不是“榜单没用了”，而是团队的验收链得补课了。

如果 agent 还能碰验证脚本、系统二进制和高权限配置，高分未必代表它真把任务做对。Berkeley 4 月这篇直接说 8 个主流 benchmark 都能被 exploit，SWE-bench Verified 和 Terminal-Bench 甚至能刷到 100%。

所以我现在更想先补 3 个动作：评测环境隔离、关键结果二次校验、真实任务回归继续跑。

你们团队现在还会把哪些验收动作默认交给 agent？

1 00

孟健AI编程

3月前

今天看到 Linux kernel 新出的 AI 辅助开发规则，我的第一反应是：代码可以让 coding agent 先写，责任别外包。

文档直接写了 3 条硬边界：AI agents 不能加 Signed-off-by；DCO 只能人类自己签；提交者还得自己 review 代码、确认 GPL 兼容。这个规则我很认同。

如果真放进团队流程，我觉得最少要保住 3 层：人审代码、人扛许可证、人签提交责任。补测试、扫上下文、小 patch 可以继续交给 agent，真正涉及担责和合规的那一步，先别省。

你们团队会不会把这类边界正式写进提交流程？今天看到 Linux kernel 新出的 AI 辅助开发规则，我的第一反应是：代码可以让 coding agent 先写，责任别外包。

文档直接写了 3 条硬边界：AI agents 不能加 Signed-off-by；DCO 只能人类自己签；提交者还得自己 review 代码、确认 GPL 兼容。这个规则我很认同。

如果真放进团队流程，我觉得最少要保住 3 层：人审代码、人扛许可证、人签提交责任。补测试、扫上下文、小 patch 可以继续交给 agent，真正涉及担责和合规的那一步，先别省。

你们团队会不会把这类边界正式写进提交流程？

1 00

孟健AI编程

3月前

如果团队已经在用 Claude Code，我觉得 Claude Managed Agents 真正改变的不是“会不会写 agent”，而是“哪些活现在敢交给托管 runtime”。

我会先放给它读代码库、跑沙盒验证、开 PR 这类可回放任务；生产配置、真实凭证、跨系统写操作先收着。Anthropic 4 月 8 日公测，4 月 9 日官方 pricing 文档也补了 runtime 计费，说明它已经在往真实商用链路走。

对团队最有价值的，不是又多一个 agent 名词，而是少搭一层基础设施后，能不能把上线门槛降下来，同时还保住回滚、审计和权限边界。

你们团队第一批最敢交给托管 agent 的，会是哪类活？如果团队已经在用 Claude Code，我觉得 Claude Managed Agents 真正改变的不是“会不会写 agent”，而是“哪些活现在敢交给托管 runtime”。

我会先放给它读代码库、跑沙盒验证、开 PR 这类可回放任务；生产配置、真实凭证、跨系统写操作先收着。Anthropic 4 月 8 日公测，4 月 9 日官方 pricing 文档也补了 runtime 计费，说明它已经在往真实商用链路走。

对团队最有价值的，不是又多一个 agent 名词，而是少搭一层基础设施后，能不能把上线门槛降下来，同时还保住回滚、审计和权限边界。

你们团队第一批最敢交给托管 agent 的，会是哪类活？

1 00

孟健AI编程

4月前

这两天看 Claude Code 的官方更新，我越来越觉得，真正开始有用的不是再加一层 prompt，而是把团队里反复出现的做法写成 skills，再把独立子任务交给 subagents。

今天热点池里，Claude Code「skills 推荐」样本最高票已经到 152；Anthropic 4/7 又专门写了一篇 subagents，用来解决长会话越来越重、上下文越聊越脏的问题。

我现在更像这样分：
1. 一次性需求，继续直接 prompt
2. 反复执行的 review / 文档 / 发布流程，写成 skill，当员工手册
3. 查代码、验边界、并行小任务，交给 subagent，只把结果带回来

这样 Claude Code 才像一个能被 onboarding 的新同事，不只是一个会接话的 IDE 插件。

你们团队现在最想先沉淀成 skill 的，是哪条流程？这两天看 Claude Code 的官方更新，我越来越觉得，真正开始有用的不是再加一层 prompt，而是把团队里反复出现的做法写成 skills，再把独立子任务交给 subagents。

今天热点池里，Claude Code「skills 推荐」样本最高票已经到 152；Anthropic 4/7 又专门写了一篇 subagents，用来解决长会话越来越重、上下文越聊越脏的问题。

我现在更像这样分：
1. 一次性需求，继续直接 prompt
2. 反复执行的 review / 文档 / 发布流程，写成 skill，当员工手册
3. 查代码、验边界、并行小任务，交给 subagent，只把结果带回来

这样 Claude Code 才像一个能被 onboarding 的新同事，不只是一个会接话的 IDE 插件。

你们团队现在最想先沉淀成 skill 的，是哪条流程？

0 00

孟健AI编程

4月前

如果团队真想把 Claude Code 放进长任务循环，我现在更想先补 Hazmat 这类隔离层，而不是再开更多权限。

像补测试、扫上下文、批量改名这种低风险活，我还敢继续交给 agent。生产配置、密钥相关脚本、默认联网装依赖这几类动作，我会先收回来，因为一旦翻车，返工和追责成本都太高。

这两天我比较在意的一个信号是：Claude Code 4 月 4 日刚加了 forceRemoteSettingsRefresh 这种 fail-closed 设置，4 月 7 日又继续补权限/配置相关修复。另一边，Hazmat 这种工具已经开始把单独 macOS 用户、内核沙箱、pf 防火墙、会话前快照一起打包。说明大家开始补的，不再只是“模型够不够强”，而是“执行环境够不够可控”。

如果是你们团队，现在最先想收回哪类动作，哪类任务你还会继续放给 agent？

0 00

孟健AI编程

4月前

今天一个真实感受是，AI coding agent 不是不能继续用，但复杂工程里真的得先把边界收回来。

我最近最怕的返工场景，不是它写得慢，而是它在多文件、多约束仓库里还没把上下文读够，就开始改，最后你得一路补 review、补回归、补规范。4/7 这波 Claude Code 争议里，用户 issue 甚至把 read:edit 比例从 6.6 掉到 2.0 当成核心信号，我觉得这个观察至少点中了一个现实：复杂活最怕“先改后读”。

所以我现在更愿意继续把这些任务交给它：补测试、补类型、扫调用链、整理上下文、小范围重构。
但这几类我会先收回来：跨模块大改、长链路调试、强规范仓库里的自动接管、会碰权限和生产配置的动作。

官方回应也说了，thinking redaction 本身是 UI 变化，effort 和 settings 还能调，所以这事我不会简单下结论说“Claude Code 不行了”。更像是大家开始补一份新的任务分流表。

你们现在还敢把哪类任务继续交给 Claude Code？哪类已经收回来了？

1 00

孟健AI编程

4月前

今天看完 Cursor 3 的官方发布，我最大的感觉不是“又多了几个功能”，而是 coding agent 开始从 IDE 里的聊天窗，变成一个真正的工作台了。

它这次把多 repo、多 agent 并行、本地/云端 handoff、diff/commit/PR 都往一个 workspace 里收。官方还特别强调，云端 agent 会直接给 demo 和截图，方便你回看它到底做了什么。

所以我现在的任务分流会更明确一点：跨 repo 梳理、需要跑很久的异步任务、可以接着 review/PR 往下走的活，我愿意先交给 Cursor 3；但 1-2 个文件的小修补、强交互的 UI 微调、我想边看边改的短反馈循环，我暂时还是更想留在 IDE 里自己盯着。

你们现在会先把哪类任务交给 Cursor 3 这种 agent workspace？我也想看看大家的边界怎么划。

0 00

孟健AI编程

4月前

今天看到 Mintlify 这篇，我会重新想一遍“文档助手默认怎么做”。

它没继续堆 RAG，而是把文档改造成一个给 agent 遍历的“虚拟文件系统”：让它直接用 grep / cat / ls / find 去找内容。官方给的数字挺夸张，session creation 的 p90 从约 46 秒压到约 100 毫秒，边际计算成本也几乎归零。

这对我最大的提醒是：复杂文档问答里，很多时候问题已经不是模型不够强，而是我们还在把文档当 chunks，而不是当一个可遍历结构。

尤其是答案散在多页、还要找精确语法或目录关系的时候，只喂 top-K chunks 很容易丢关键上下文。

你们现在做文档助手/知识库 agent，默认还是 RAG 起手吗？还是已经开始给 agent 更像“代码库”的入口了？

0 00

孟健AI编程

4月前

Claude Code 这次源码泄露，我第一反应不是八卦，而是又提醒了一遍：团队里哪些动作不能再默认放手给 agent。

我现在还敢交给它的，主要是读代码库、解释上下文、批量改低风险文件、起草 PR。
但像装依赖/跑未知脚本、改部署链路、碰生产凭证这类高权限动作，我会先收回来，至少加 review gate 和最小权限，不然出事时你连它到底怎么做的都很难复盘。

这类工具越强，越要把“能回看、能追责、能复盘”补上。

你们团队现在最不敢默认交给 coding agent 的动作是什么？

1 00

孟健AI编程

4月前

刚上线了一个 AI 角色生成器 getchargen.com 🎲

输入一句话描述，自动生成角色肖像、性格特征、背景故事和完整角色卡。

适合 DnD 桌游玩家、小说作者、独立游戏开发者。

免费使用，欢迎试玩：getchargen.com

1 00