最近,OpenAI 的研究员姚顺雨的这篇 blog(The Second Half:
ysymyth.github.io)非常火。仔细研读了一些,记录了一些笔记。
如果要用一句话概括,可能是 AI 的下半场将把重心从「如何把模型训到过关」转向「先界定真实世界中值得解决的任务,再用交互式、顺序式的评估去衡量进步」。
## 趋势是什么?
- 现在和之前有什么不同:RL finally works(强化学习终于见效了),更准确地说是 RL finally generalizes(强化学习终于泛化了)。
- 接下来会发生什么?从解决问题过渡到定义问题。在新时代评估比训练更重要。不应该只是问“我们能训练一个模型解决 X 问题吗?”更应该转向“我们应该训练 AI 做什么?我们应该如何衡量真正的进步?”心态和技能从关注技术的研究员视角转变为用户和问题解决视角的产品经理视角。
## 上半场:以方法为核心的时代
- 用论文引用量作为对比,模型训练和方法的论文引用量显著高于基准或任务的引用量。 -> 在上半场,业界首先关注的是模型和方法,接下来才是评估和基准测试。
> A great new method can hillclimb many different benchmarks because it’s simple and general, thus the impact tends to go beyond an individual task.
- 为什么会这样?很大原因是,在 AI 的上半场,方法比任务更难、也更让人兴奋。创建一个新的算法或模型架构需要非凡的洞察力与工程能力,另外,方法通常也比单点的任务更通用。
## Recipe:通用智能的配方
- 作者所说的 "recipe(配方)" 指的是 大规模语言预训练 + Scale(数据与算力)+ Reasoning & Acting 这三大“食材”。只要按比例堆料并持续加热,就能复制出强大的通用模型。
- 为什么它奏效?可用 RL 的经典三要素——环境 (Environment)、算法 (Algorithm)、先验 (Prior)——来解释:过去大家聚焦算法,环境通常被简化为恒定的小玩具世界;而在深度 RL 时代,真正决定模型性能的是海量多样的环境/语料与恰当的先验,算法更像“火候控制”,作者说 “到头来 RL 算法可能是最琐碎的部分”。
- OpenAI 的初始计划就是想要将所有的数字世界都变成一个环境、然后用智能的 RL 算法解决它,最终得到数字世界的 AGI。但事实证明,缺失的部分是先验知识(可以通过与 RL 无关的方式获得)。
- 回顾上半场的游戏逻辑是:我们开发了新的训练方法或模型来挑战爬山基准,然后我们又创建更难的基准测试来循环。( 图 1)
## 下半场:从“能做”到“该做”
- 作者指出 utility problem(效用)问题,传统基准刷榜分数越来越高,但对经济和用户价值提升有限。作者认为这是当前 AI 面临的最重要的问题。
- 我们应该从根本上重新思考评估。我们的评估方法设计和现实世界的设计方式有很大不同。Our evaluation setups are different from real-world setups in many basic ways. 两个显著的差异是:
- 传统的评测假设任务是自动运行的,现实中的 Agent 则需要与人互动(不是你发一段长消息,然后等十分钟后得到结果,而是多轮的互动)。
- 传统的评测假设任务是独立、随机分布的(如测试集包含 500 个任务,对每个任务单独评测,再把各项指标平均得到总分),现实中人们是按照顺序逐个完成任务,而不是一次性并行。
- 下半场的游戏规则(图 2)是:
- 为现实世界制定新的、具备实用性的任务和评测。(贴近真实应用、包含交互、动态变化或安全对齐维度,让“有用”而非“刷榜”成为目标。)
- 再用那份配方(或给配方添加新材料)来解决这些任务。
- 通过「评测 → 暴露短板 → 改进配方 → 再评测」如此往复形成正向循环。