关于AI大模型开源。其实开源并不意味着对手可以轻易复制。对手可以拿开源的大模型微

关于AI大模型开源。其实开源并不意味着对手可以轻易复制。

对手可以拿开源的大模型微调，可以对大模型蒸馏，但是，想直接训练出一样的大模型，可以说是不可能的。

因为大模型的训练，关键在数据，而不是代码。数据的清洗过程，训练数据的生成过程，才是大模型质量的奥秘。同样的算法，同样的训练代码，给它喂不同的数据，大模型的质量是天壤之别。

而且，大模型训练的数据，极其庞大。通常都是以PB计。这么大的数据量，即使是1000M宽带满速，不中断不关机不掉线，也要下载100天以上。所以，真正彻底开源大模型训练全过程，在物理上就是做不到的。

如果对手拿开源模型去微调，换个皮说是自己的，会怎么样？有可能成功，但也很容易露馅。现在有不少对模型特征的检测方法。而且，很多时候，模型的版权标志没有清洗干净，一不小心就会暴露。一旦暴露，就是名声扫地。

所以，开源其实是个打压对手的好方法，扩大了自己的影响力，而用户，通常还是会到官网去买api。对手唯一能做的就是蒸馏。而蒸馏就是业界普遍采用的做法，多模型混合蒸馏。不开源也同样逃不了蒸馏。

众力资讯网