一个洞察
LLM 的进化路线,从一开始的「模型能力 lead 应用」慢慢演化成了「用户使用 lead 模型训练」的反馈循环。
1. 用户发现 CoT 可以提高模型的生成质量,由此演化到了 Reasoning Model,将 CoT 通过 RL 的方式训练到了模型中,这就是 o1 R1;
2. 用户发现 ReAct 可以提高模型生成质量,使用工具的能力,由此演化到了 Fuction call, MCP,这就是 Agent 的底层能力。模型训练的过程中,也会使用 ReAct 的方法来提高模型使用工具的能力,这就是为什么 Minimax-M1 的 tool use 能力这么好;
3. 用户发现用户在虚拟陪伴中,剧情动作更多的对话方式(括号文学),平均对话次数更高。所以使用了大量小说和剧本来训练 Character Model,这就是 doubao-32k-pro-character;