数据蒸馏到底是什么神奇技术? 用大模型训练更小模型的一种方法,逐级训练,不断缩小参数量,节省训练资源,同时精确度下降不大。 把独热分类用SOFTMAX函数转换为软分类,小概率分量提高比例。 这个技术有7-8年。
数据蒸馏到底是什么神奇技术? 用大模型训练更小模型的一种方法,逐级训练,不断缩小
糖果杠历史
2025-02-04 11:36:07
0
阅读:12