无论怎么玩,还是统计,对数据的归纳:1,next token prediction, “吃”后面一般是“饭”;2,所谓常识,“饿了”要“吃饭”,“吃饭”会“变饱”,也都是因为训练数据里包含大量这样的模式;3,单纯pre train对reasoning做的不太好,也是因为训练数据里 A->B->C->D 这样任务级别粗颗粒度、长序列的模式匮乏,不足以让模型记忆这种规律,那就需要通过构建reward model的方式创造、合成足够的数据教会模型。这一套方法论已被实践证明很有效,剩下就是在各个行业复制,困难的应该还是构建数据闭环,譬如具身智能、世界模型,怎么高效收集数据是关键。