众力资讯网

小米一口气发布 MiMo-V2 全家桶,能看、能听、能说、能写

大家好,我是 Chris。就在刚刚,小米正式揭开了前段时间在 OpenRouter 上霸榜的神秘模型“Hunter Al

大家好,我是 Chris。

就在刚刚,小米正式揭开了前段时间在 OpenRouter 上霸榜的神秘模型“Hunter Alpha”的真面目,它就是小米自研的旗舰级 Agent 大脑 MiMo-V2-Pro。

小米这次是不鸣则已,一鸣惊人,直接掏出了“全家桶”:除了大脑 Pro,还有负责看和听的视觉/音频大模型 MiMo-V2-Omni,以及让 AI 说话带“灵魂”的语音合成模型 MiMo-V2-TTS。

这三者合一,几乎勾勒出了未来 AI Agent 的完整形态。最重要的是,未来一周,这些顶级模型全部开放免费试用!

MiMo-V2-Pro:最强编程大脑

首先聊聊这颗“大脑”。MiMo-V2-Pro 定位是旗舰级基座模型,专门为复杂的 Agent 工作流和生产力工程设计。

模型介绍:https://mimo.xiaomi.com/mimo-v2-pro

核心亮点:

参数与架构: 总参数量突破 **1T (万亿)**,采用混合专家架构(MoE),激活参数为 42B。它在继承前代 Hybrid Attention 机制的基础上,将混合比例提升至 7:1,在保持超大规模的同时,推理效率依然极高。硬核战绩: 在全球权威榜单 Artificial Analysis 中,MiMo-V2-Pro 综合智力排名全球第 8,在中文 LLM 中高居 第 2,仅次于 GLM-5。Agent 与编程: 它的代码能力已经非常接近甚至在部分场景超越了 Claude 4.6 Sonnet。无论是系统设计、任务规划,还是在 OpenClaw 等 Agent 框架下的工具调用稳定性,都达到了世界第一梯队水平。价格屠夫: 性能追平顶级模型的同时,价格只有 Sonnet 4.6 的 五分之一。256K 上下文内,百万 Token 仅需 1/3 美元。MiMo-V2-Omni:全模态统一理解

如果说 Pro 是大脑,那么 Omni 就是 Agent 的眼睛和耳朵。它不再是简单的图生文,而是真正实现了全模态的统一理解。

模型介绍:https://mimo.xiaomi.com/mimo-v2-omni

核心亮点:

视觉与音频的巅峰: 在 MMAU-Pro 等测试中,它的音频理解能力超过了 Gemini 3 Pro,支持 10 小时以上 的连续音频分析。这意味着你可以把一整天的会议记录或长达数小时的播客丢给它,它能精准捕捉逻辑线索。情景感知与未来预测: 这是一个非常恐怖的能力。在自动驾驶演示中,Omni 不仅能识别障碍物,还能预测风险(比如预测路边行人是否会突然横穿)。它支持音视频联合输入,能看懂电影里的蒙太奇手法,理解声音背后的深层情感。原生支持交互: 它天生支持 UI Grounding 和函数执行,能像真人一样在浏览器和移动端界面上进行视觉定位和操作。MiMo-V2-TTS:拒绝机械感

最后不得不提这个让我最惊喜的模型 MiMo-V2-TTS。它彻底终结了 AI 说话那股“译制片味儿”。

官方链接:https://mimo.xiaomi.com/mimo-v2-tts

核心亮点:

自然语言指令控制: 以前搞 TTS 要选“开心”、“悲伤”标签,现在你直接给它一句话:“睡眼惺忪,声音微哑,带点撒娇”。它能精准捕捉语义,甚至支持句中情绪的自然切换和渐变。非言语声音建模: 它可以自然地在说话间隙加入咳嗽、叹气、犹豫填充音(嗯...额...),甚至是剧烈运动后的喘息声。这种细腻的颗粒度,让它听起来就像一个活生生的人。方言与角色: 东北话、四川话、粤语信手拈来,还能变身孙悟空或林黛玉。开口即惊艳: 它是目前极少数在同一模型中原生支持说话与唱歌的 TTS。它能准确捕捉旋律和节奏,从低声呢喃到流行金曲的高音,无缝切换。相关链接官方主页:https://mimo.xiaomi.com/zhAPI 接入文档:https://platform.xiaomimimo.com/#/docs/quick-start/first-api-call网页端体验:https://aistudio.xiaomimimo.com/#/

总结

小米这波布局非常清晰:Pro 提供决策,Omni 提供感知,TTS 提供表达。

这不仅仅是发布了三个模型,而是提供了一套完整的 Agent 基础设施。

目前,MiMo-V2-Pro 已经与 OpenClaw、Cline、KiloCode 等主流框架深度集成。对于开发者来说,这可能是目前市面上性价比最高、能力最均衡的选择。

这一波,我先冲为敬!你们觉得小米这次能撼动 Claude 和 GPT 的地位吗?欢迎在评论区留言讨论