蒸馏也分2种，软蒸馏和硬蒸馏。软蒸馏是 Hinton 2015 年那篇经典论文

蒸馏也分2种，软蒸馏和硬蒸馏。软蒸馏是 Hinton 2015 年那篇经典论文 Distilling the Knowledge in a Neural Network 定义的原始形态，也是学术意义上"真正的"蒸馏。学生模型不是去学老师的最终答案，而是去学老师在每个 token 位置上的完整概率分布

硬蒸馏，要参考Kim & Rush 2016 年那篇 Sequence-Level Knowledge Distillation 论文。学生模型用老师模型生成的文本输出作为训练数据，按普通监督学习的方式去拟合。

现在一般都用硬蒸馏，但是这个搞法能解决一些 benchmark 的问题，长尾任务就退化了。目前大模型发展到这个阶段，头部模型不屑于蒸馏，后面的一些模型为了解决benchmark的效果，可能稍微蒸一点，其实不奇怪。学生向老师学习，这有什么不行的呢？模型都是公开的，柯洁的棋谱我们普人不能学习吗？

众力资讯网

蒸馏也分2种，软蒸馏和硬蒸馏。软蒸馏是 Hinton 2015 年那篇经典论文

热门分类