我们究竟在优化AI的思考,还是人类的思考?
我们似乎并不清楚对于智能而言,“效率”是模型自身的推理效率,还是它辅助人类时的信息降噪与路径优化的效率。人类的学习机制依赖试错与反馈,而非单纯的结果导向。
即使目前DS的研究显示PRM效果不好,但是结果奖励机制就像考试分数,虽然量化方便却丢失了最有价值的学习过程。很常见的现象是很多人都觉得DS的推理过程更有价值,而对输出的结果并不满意。此时问题就变成了:推理模型是否该模仿人类学习机制?
回归人类自身,我们进行思考时快慢思维并存。我们使用AI时,实际上是在用自己的"快思维"(直觉、联想)激发模型输出结果,用人的"慢思维"验证结果和校准方向。如果AI自身就能在“直觉”与“理性”间自由切换,会诞生怎样的新范式?