大模型出厂应该具备什么能力
chatglm6b确实在垂类存在微调容易掉其它能力问题
感觉模型是参数太少问题 出厂时候训练够多
但从参与度角讲 参数确实不够鲁棒应该是没做出厂参数分布位校对
这其实可以理解 :
1.这难度很大 复杂度很高
2.不太容易衡量参数后调的鲁棒位在哪
这其实就很像在调试一台精密仪器的参数,要在各种环境表现都不错,同时在各种环境微调还要容易调
llama确实出厂参数调都不错 应该内部有团队很关注这块
所以你看市面基于llama做二次模型训练很多
生态也很不错
但是glm其实基本就是chatglm直接用
基本看不到基于glm做的二次训练还能成一个生态的
这个感觉还是glm团队要去考虑的
如何让下游生态能够起来
让其它伙伴容易参与进来
容易补强垂类没有的能力 好训练 这一定是很重要一条
否则你学了一些又掉了一些 我为什么不用专用模型呢