众力资讯网

关于AI大模型开源。其实开源并不意味着对手可以轻易复制。对手可以拿开源的大模型微

关于AI大模型开源。其实开源并不意味着对手可以轻易复制。

对手可以拿开源的大模型微调,可以对大模型蒸馏,但是,想直接训练出一样的大模型,可以说是不可能的。

因为大模型的训练,关键在数据,而不是代码。数据的清洗过程,训练数据的生成过程,才是大模型质量的奥秘。同样的算法,同样的训练代码,给它喂不同的数据,大模型的质量是天壤之别。

而且,大模型训练的数据,极其庞大。通常都是以PB计。这么大的数据量,即使是1000M宽带满速,不中断不关机不掉线,也要下载100天以上。所以,真正彻底开源大模型训练全过程,在物理上就是做不到的。

如果对手拿开源模型去微调,换个皮说是自己的,会怎么样?有可能成功,但也很容易露馅。现在有不少对模型特征的检测方法。而且,很多时候,模型的版权标志没有清洗干净,一不小心就会暴露。一旦暴露,就是名声扫地。

所以,开源其实是个打压对手的好方法,扩大了自己的影响力,而用户,通常还是会到官网去买api。对手唯一能做的就是蒸馏。而蒸馏就是业界普遍采用的做法,多模型混合蒸馏。不开源也同样逃不了蒸馏。