你觉得Deepseek的蒸馏技术是创新吗知识蒸馏技术在流行大模型框架内是常配模块

糖果杠历史 2025-02-02 07:35:19

你觉得Deepseek的蒸馏技术是创新吗知识蒸馏技术在流行大模型框架内是常配模块,单独看不是创新,具体应用要考虑更多方面,会打不等于能打到世界冠军。DeepSeek用的是谷歌框架,全转为转为华为GPU还要一个过程,华为用PYTORCH框架。推理用华为GPU,因此先用PYTORCH推理模块。

0 阅读:50

猜你喜欢

糖果杠历史

糖果杠历史

感谢大家的关注