我最喜欢的小米技术最近沉迷发文。我知道这么长的东西大家普遍懒得看，我做一篇简短的

2026-05-31 00:10:41 机智的娜娜科技

我最喜欢的小米技术最近沉迷发文。

我知道这么长的东西大家普遍懒得看，我做一篇简短的解读：

Q1、为什么降价幅度这么夸张？A1、大模型推理的核心开销是KVCache，MiMo使用了Hybrid SWA 可以在架构上省成本。

Q2、怎么节省的KVCache？A2、把KVCache拆成两个独立的池——完整注意力的长期保存，滑动窗口的按需淘汰，效率直接提升7倍，不再有打个招呼“Hi”一下就烧掉上万Token的情况。

Q3、为什么干这事？A2、官方的回答是"技术的价值，最终要体现在被使用的广度上。让更多人能用到更好的模型——这是 MiMo 不变的使命。"呱唧呱唧👏👏👏👏👏

阅读：4 点赞：0

众力资讯网