小米这波牛逼啊,一下掏出三个顶级模型!
前几天在 OpenRouter 杀疯了的 Hunter Alpha 就是 MiMo‑V2‑Pro。
MiMo‑V2‑Pro 旗舰模型,主要在 Agent 能力和代码能力上很强。
MiMo‑V2‑Omni:多模态感知模型,负责感知环境为 Agent 模型提供信息。
MiMo‑V2‑TTS:TTS 语音模型负责 Agent 跟人类沟通
而且这几个模型会在接下里的一周提供免费试用,Codepilot 已经支持,填写 Key 就能用。
------
MiMo‑V2‑Pro 顶级 Agent 编程模型:
总参数超 1T,激活参数 42B,最高支持 100 万上下文
Artificial Analysis 里面中文 LLM 第二,仅次于 GLM-5
测试集成绩来看,成绩非常接近 Sonnet4.6,价格只有 Sonnet 4.6 的 5 分之一。
256K 价格:1/3 美元百万 Token
1M 价格 2/6 美元百万 Token
MiMo‑V2‑Omni 全模态理解 LLM:
支持图像、视频和超长音频理解
官方宣称音频理解超过 Gemini3Pro,支持 10 小时以上连续音频理解
图像理解上复杂图表与多学科视觉推理能力 超过 Claude 4.6 Opus
支持音视频联合输入,强调「情景感知 + 未来预测」
原生支持 工具调用、函数执行、UI grounding
MiMo‑V2‑TTS 更猛:
支持「自然语言风格指令」,不限于固定标签
支持句中情绪切换、渐变、以及更细粒度的情绪控制
中英双语为主,同时支持多种方言风格
还支持人物化声音,例如孙悟空等
咳嗽、叹气、犹豫填充音等非言语声音建模
会用大小写、重复字符、标点符号作为韵律信号
在同一模型中支持说话与唱歌,能准确捕捉旋律和节奏
详情:mimo.xiaomi.com/zh