众力资讯网

蒸馏也分2种,软蒸馏和硬蒸馏。软蒸馏是 Hinton 2015 年那篇经典论文

蒸馏也分2种,软蒸馏和硬蒸馏。软蒸馏是 Hinton 2015 年那篇经典论文 Distilling the Knowledge in a Neural Network 定义的原始形态,也是学术意义上"真正的"蒸馏。学生模型不是去学老师的最终答案,而是去学老师在每个 token 位置上的完整概率分布

硬蒸馏,要参考Kim & Rush 2016 年那篇 Sequence-Level Knowledge Distillation 论文。学生模型用老师模型生成的文本输出作为训练数据,按普通监督学习的方式去拟合。

现在一般都用硬蒸馏,但是这个搞法能解决一些 benchmark 的问题,长尾任务就退化了。目前大模型发展到这个阶段,头部模型不屑于蒸馏,后面的一些模型为了解决benchmark的效果,可能稍微蒸一点,其实不奇怪。学生向老师学习,这有什么不行的呢?模型都是公开的,柯洁的棋谱我们普人不能学习吗?