我最喜欢的小米技术最近沉迷发文。
我知道这么长的东西大家普遍懒得看,我做一篇简短的解读:
Q1、为什么降价幅度这么夸张?A1、大模型推理的核心开销是KVCache,MiMo使用了Hybrid SWA 可以在架构上省成本。
Q2、怎么节省的KVCache?A2、把KVCache拆成两个独立的池——完整注意力的长期保存,滑动窗口的按需淘汰,效率直接提升7倍,不再有打个招呼“Hi”一下就烧掉上万Token的情况。
Q3、为什么干这事?A2、官方的回答是"技术的价值,最终要体现在被使用的广度上。让更多人能用到更好的模型——这是 MiMo 不变的使命。"呱唧呱唧👏👏👏👏👏
