DeepSeek的分歧,谈谈算力需求
好运罐头
2024-12-30 11:35:08
【Mstech】DeepSeek的分歧,谈谈算力需求。
我们今天重点研究DeepSeek,除了基础的体验外,也去Github上学习了他的Technical Report(如需相关资料可私信),
同步梳理了脑图如下。不得不说,DeepSeek是颠覆式的大模型,在MMLU-Pro等大模型测试上,和全球巨头站在同一身位。
于此同时,市场也关注到了DeepSeek的一些参数(训练时间是LIama 3的1/11;价格是Claude 3.5的1/11),
不少领导担心训练侧大幅降本,引发算力需求下降。
我们认为,DeepSeek V3的成功,并不意味着算力需求下降。实际上是#DeepSeek参数有歧义,才造成了市场的误读。
从训练到推理、算力需求持续增长。
1,DeepSeek V3的训练成本仅考虑单次训练,而实际大模型的训练需要:1)大量高质量数据的合成及清洗;2)
充分的预训练;3)多个MoE专家模型的多次训练;
2,AI应用和AI终端的落地节奏正在加速,推理侧将带来远超训练侧的算力需求,
我们测算仅字节豆包未来就需要50-100万张等效H100算力需求。
CSP引领AI新范式。
我们在策略报告中强调,公开数据增速无法匹配大模型发展需求,预训练的Scaling Law已结束,
采用私域高精度数据进行垂直领域专家大模型的训练将成为Scaling Law 2.0;
云厂商从模型到算力,从云端到终端全面布局,形成完美的商业闭环,
在下一轮AI产业叙事中,建议重点关注云厂商合作伙伴的投资机会。#DeepSeek V3
0
阅读:37