MiniMax 发布并开源了混合框架推理模型 M1,结合了 MoE 和 Lightning Attention 技术。
它的亮点在于:
① 模型参数达到 4560 亿,单个 token 的激活参数为 45.9 亿。
② 支持超长的上下文输入,可以处理高达 100 万 token 的上下文。
③ 提供了两个推理模型,分别是 40K 和 80K 的思维预算。
④ 训练成本仅为 53.5 万美元,表现比 Qwen3 和 DeepSeek-R1 更强,接近顶级的闭源模型。
技术方面:MiniMax M1 引入了 Lightning Attention 机制,处理 10 万 tokens 时,计算量只有 DeepSeek R1 的 25%。此外,采用了新的 CISPO 算法,这种算法通过裁剪采样权重,而不是 token 梯度,减少了训练的波动,提高了稳定性,并加快了训练速度,效率比 Qwen2.5 快了两倍。
这个模型的特色就是支持最大 1M token 输入和 80K token 输出,是目前最长的上下文窗口。此外,它还具备开源模型中最强的代理能力,让推理更加智能高效。
和一些大厂模型比如 OpenAI O3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528 相比,MiniMax M1 在开源领域已经算是领先者,特别是在长上下文推理和计算效率上,表现十分突出。
总的来说,MiniMax M1 是目前开源领域里性能最强、效率最高的长上下文推理模型之一,且性价比非常高。
目前已经可以在 MiniMax Chat (
chat.minimaxi.com)中使用
Hugging Face:
huggingface.coGithub:
github.com技术报告:
github.com/blob/main/MiniMax_M1_tech_report.pdf