小米这次不只是加速了,而且还贡献了新方法 FP4 量化:万亿模型参数太大,显存根本吃不消。小米聪明就在只把 MoE 架构里的 Expert(专家模型)做了 FP4 量化,其他核心模块保留高精度。等于把最占地方的行李压缩了,但脑子一点没变笨,性能几乎无损! DFlash 投机解码:以前的投机解码是小模型自回归一个一个猜,效率低。小米这个 DFlash 搞了块级并行预测,一次直接猜一整块(Mask块),大模型一轮验证直接吞下 6-7 个 token,Coding场景接受长度直接干到 6.3!算力开销直接压缩到极限。更牛逼的是,小米反手就给免费开源了!花了那么多钱、那么多精力搞出来的核心成果,说开源就开源,这格局,这才是真正有责任感、有长远规划的伟大国内顶级科技公司!
