即刻App年轻人的同好社区
下载
App内打开
julian
1k关注6k被关注58夸夸
做世界的学生
julian
01:25
晚上看到一篇叫 Memento-Skills: Let Agents Design Agents 的论文很激动,让 Agent 自己设计自己,越用越聪明,不用更新模型参数。核心是一个"读写反思学习"闭环——遇到新任务先从技能库里检索相关技能(Read),执行完之后根据成败反馈去重写或创建技能(Write),形成持续进化。memento.run

但把他们 GitHub 三个仓库的代码全部 clone 下来逐行查了一遍,发现情况比较微妙:

1)论文核心闭环的代码没有完全开源。算法里最关键的几个组件——judge.py(判定成败)、optimizer.py(技能优化)、UnitTestGate(单元测试门控)、Utility Rate(技能效用评分)——在 Memento-Skills 仓库里一行都找不到。Skill 的数据模型里甚至没有 success_count 字段。

2)在另一个仓库(Memento-Teams)里找到了一套 eval 流水线(run.py → verify.py → reflect.py),能对比标准答案自动生成新的分解策略技能。这算是闭环的简化版,但只跑一轮,没有迭代收敛,也没有论文里的回滚机制。

3)最完整的闭环实现其实在初代 Memento 仓库里,但它做的是案例记忆(CBR),不是技能进化——每次做完题,把"题目+计划+对错"存进记忆库,下次遇到类似问题就检索出来参考。这套代码是完整可跑的。

论文描述的是"从经验中提炼通用方法论",代码实现的是"记住做过的每道题"。前者更高级,但核心代码没开源;后者更朴素,但确实能跑通。

感觉这种 bluffing 不仅是 ai 产品的常态,似乎也成了 ai 科研的常态了。
10
julian
2天前
现在所谓的 proactive agent 都是通过 heartbeat(每隔固定时间)来触发的,会有其他的解法吗?
82
julian
2天前
神化他人或许是理解他人的阻碍。
30
julian
3天前
社交媒体和推荐算法让人的 context 变得极短,过度地关注当下的 buzzwords 而不能冷静下来想问题,爬行脑压过理智脑。
01
julian
6天前
传统 nlp 把语言当作一种“社会规则系统”,大语言模型把语言当作一种“统计物理现象”。语言学家研究了一百年的语法,结果发现只要做概率预测,语法会自己长出来。
30
julian
6天前
还是觉得很震撼,一些自证明的话语顿时失去了意义。

julian: 世界上所有的语言都被说过了。

21
julian
6天前
现在是不是和 ai 的聊天记录分享到社媒上仍是一个可被优化的过程?例如生成长图之类的。
50
julian
6天前
问题一:你有时会好奇某人和 chatgpt 聊了什么吗?
问题二:如果有人付费看你和 chatgpt 聊了什么你同意吗?
131
julian
6天前
去年做的小玩具上了,潮流对讲机(手机版),跨屏幕即时播放密友发来的语音消息,目前最短链路和熟人沟通。
52
julian
6天前
opc 如何潇洒就不说做什么业务,说 vibe coding 很爽就不说做什么产品,这样不是很好。
21