小米大模型刷新全球最快推理速度小米在AI推理工程层面确实做到了全球顶尖，小米究竟

小米大模型刷新全球最快推理速度小米在AI推理工程层面确实做到了全球顶尖，小米究竟掌握了什么天顶星科技啊

1000 tokens/s 是什么概念？

目前主流大模型的生成速度大概在 30-80 tokens/s（GPT-4o 约 80，Claude 约 60）。1000 tokens/s 意味着输出速度快了一个数量级——用户感知上几乎是"秒出"，长文本生成从"等几秒"变成"刷一下就完了"。

这在 Coding Agent 场景尤其重要。从 benchmark 看，SWE-Bench Pro 上 MiMo-V2.5-Pro UltraFast 拿到 58.8，超过了 Claude Opus 4.6（57.3）和 GPT-5.4（57.7）。推理速度提升的同时，能力没有掉，这才是真正有价值的。

关键在于：全程用的是通用 GPU，没有专用加速器。这意味着部署成本低、兼容性强，任何有 A100/H100 的机房都能跑。对比 Google TPU、Groq LPU 这些专用硬件路线，小米选了一条工程化门槛更高但商业化门槛更低的路。

放在全球大模型竞争的坐标系里看

小米从 2024 年 7 月拿到第一个"世界之最"（专利全球第一），到 2026 年 6 月拿下推理速度全球第一，两年时间走完了从"AI 新兵"到"某几个维度全球领先"的路。

众力资讯网

小米大模型刷新全球最快推理速度小米在AI推理工程层面确实做到了全球顶尖，小米究竟

热门分类