🤔1.RLHF ≠ 能力放大器,而是收敛器。
- 在答案可验证、奖励稀疏的静态任务里,它主要帮模型“更快猜中”,不会发明新策略。
2. 真正的“体验时代”要素 = 环境 + 记忆 + 目标
- 让模型在长回合任务里不断行动、观察、更新世界模型(例如 Agent 与网页、机器人与物理世界)。
- 没有这三个要素,仅把 PPO 套在聊天或单步数学题上,本质上还是“静态奖励微调”…
3. “AI 下半场”与“体验时代”并不冲突
- 下半场强调:用评估倒逼任务定义,关注实际体验;
- 体验时代给出路径:用交互式 RL 生成新数据,让模型在真实场景里迭代。
- 二者合在一起 = 先把评测/体验指标定清楚,再搭环境让模型自己去刷经验。