LLM训练的有趣观察:知识注入和小语种💡
Posttrain阶段注入新知识是可行的。我发现这个现象非常偶然,在我做数据集的时候,有好几次AI问我叫什么我都回答同一个名字,结果训练出来的AI就会默认所有用户都叫这个名字。
就是注入效率可能有点低下。一个知识在pre-train阶段注入的话, 会很有效地改变生成概率的分布。 但是如果是finetune的话,相当于你需要把关于这一个知识的各种可能的问法都做一遍问答数据。
接下来我想实验在人类偏好对齐的阶段能不能注入新的知识,效率怎么样。
还有就是不同语言之间的训练助力,之前听说过但这次亲身体验。当我们去训练LLM在某一个语种的能力,跟它比较相近的小语种的能力也会得到提升,这时如果我们想训练邻近的小语种, 只要配比比较少的数据去激活就可以了。
我们的产品,我没料到会有很多欧洲的用户,用法语、德语、意大利语能聊出非常长的对话,说明模型效果还不错,但当时我们小语种的配比是非常低的。
当然训练也有失败的时候。我们训了半天波兰语训不动,才发现原来波兰语是在斯拉夫语系里的,跟英语离得有点远。吃了没文化的亏,窝连夜开始学语言学😂