小米这次不只是加速了，而且还贡献了新方法 FP4 量化：万亿模型参数太大，显存根

小米这次不只是加速了，而且还贡献了新方法 FP4 量化：万亿模型参数太大，显存根本吃不消。小米聪明就在只把 MoE 架构里的 Expert（专家模型）做了 FP4 量化，其他核心模块保留高精度。等于把最占地方的行李压缩了，但脑子一点没变笨，性能几乎无损！ DFlash 投机解码：以前的投机解码是小模型自回归一个一个猜，效率低。小米这个 DFlash 搞了块级并行预测，一次直接猜一整块（Mask块），大模型一轮验证直接吞下 6-7 个 token，Coding场景接受长度直接干到 6.3！算力开销直接压缩到极限。更牛逼的是，小米反手就给免费开源了！花了那么多钱、那么多精力搞出来的核心成果，说开源就开源，这格局，这才是真正有责任感、有长远规划的伟大国内顶级科技公司！

众力资讯网

小米这次不只是加速了，而且还贡献了新方法 FP4 量化：万亿模型参数太大，显存根

热门分类