数据蒸馏到底是什么神奇技术? 用大模型训练更小模型的一种方法,逐级训练,不断缩小

糖果杠历史 2025-02-04 11:36:07

数据蒸馏到底是什么神奇技术? 用大模型训练更小模型的一种方法,逐级训练,不断缩小参数量,节省训练资源,同时精确度下降不大。 把独热分类用SOFTMAX函数转换为软分类,小概率分量提高比例。 这个技术有7-8年。

0 阅读:12
糖果杠历史

糖果杠历史

感谢大家的关注