众力资讯网

小米大模型刷新全球最快推理速度小米在AI推理工程层面确实做到了全球顶尖,小米究竟

小米大模型刷新全球最快推理速度小米在AI推理工程层面确实做到了全球顶尖,小米究竟掌握了什么天顶星科技啊

1000 tokens/s 是什么概念?

目前主流大模型的生成速度大概在 30-80 tokens/s(GPT-4o 约 80,Claude 约 60)。1000 tokens/s 意味着输出速度快了一个数量级——用户感知上几乎是"秒出",长文本生成从"等几秒"变成"刷一下就完了"。

这在 Coding Agent 场景尤其重要。从 benchmark 看,SWE-Bench Pro 上 MiMo-V2.5-Pro UltraFast 拿到 58.8,超过了 Claude Opus 4.6(57.3)和 GPT-5.4(57.7)。推理速度提升的同时,能力没有掉,这才是真正有价值的。

关键在于:全程用的是通用 GPU,没有专用加速器。这意味着部署成本低、兼容性强,任何有 A100/H100 的机房都能跑。对比 Google TPU、Groq LPU 这些专用硬件路线,小米选了一条工程化门槛更高但商业化门槛更低的路。

放在全球大模型竞争的坐标系里看

小米从 2024 年 7 月拿到第一个"世界之最"(专利全球第一),到 2026 年 6 月拿下推理速度全球第一,两年时间走完了从"AI 新兵"到"某几个维度全球领先"的路。