昨天去魔搭开发者大会,听通义千问负责人林俊旸讲了Qwen的进展和未来方向,总结一些信息分享:
1. Qwen2.5训练过程虽然有些曲折,但证明了RL的潜力,所以Qwen2.5一结束Qwen3也顺着这个思路推进。
2. MoE和Dense模型都还在做,最近团队比较关注Qwen3-30B-A3B(MoE)和Qwen3-4B(Dense)。关注前者是发现它能比较好地平衡速度和资源占用,后者是因为适合手机端侧场景(据说做了“极致的剪枝和蒸馏”)。
3. 另外一个重点是多模态。首先Qwen下一代VL已经在路上,目前有一些阶段性进展,现场林俊旸演示了Qwen-VLo逐步生成图像的case和编辑功能。另外还有Omni的多模态能力(Thinker-Talker架构),现在只有7B,之后会持续Scaling。总之让多模态模型的生成和理解统一是目前的追求。
4.接下来Qwen的重点方向:持续PreTraning;Scaling RL/Context/Modalities;从Training Model的时代,推进到Training Agent时代。