晚上看到一篇叫 Memento-Skills: Let Agents Design Agents 的论文很激动,让 Agent 自己设计自己,越用越聪明,不用更新模型参数。核心是一个"读写反思学习"闭环——遇到新任务先从技能库里检索相关技能(Read),执行完之后根据成败反馈去重写或创建技能(Write),形成持续进化。
memento.run但把他们 GitHub 三个仓库的代码全部 clone 下来逐行查了一遍,发现情况比较微妙:
1)论文核心闭环的代码没有完全开源。算法里最关键的几个组件——judge.py(判定成败)、optimizer.py(技能优化)、UnitTestGate(单元测试门控)、Utility Rate(技能效用评分)——在 Memento-Skills 仓库里一行都找不到。Skill 的数据模型里甚至没有 success_count 字段。
2)在另一个仓库(Memento-Teams)里找到了一套 eval 流水线(run.py → verify.py → reflect.py),能对比标准答案自动生成新的分解策略技能。这算是闭环的简化版,但只跑一轮,没有迭代收敛,也没有论文里的回滚机制。
3)最完整的闭环实现其实在初代 Memento 仓库里,但它做的是案例记忆(CBR),不是技能进化——每次做完题,把"题目+计划+对错"存进记忆库,下次遇到类似问题就检索出来参考。这套代码是完整可跑的。
论文描述的是"从经验中提炼通用方法论",代码实现的是"记住做过的每道题"。前者更高级,但核心代码没开源;后者更朴素,但确实能跑通。
感觉这种 bluffing 不仅是 ai 产品的常态,似乎也成了 ai 科研的常态了。