DeepSeek的分歧,谈谈算力需求

好运罐头 2024-12-30 11:35:08
【Mstech】DeepSeek的分歧,谈谈算力需求。 我们今天重点研究DeepSeek,除了基础的体验外,也去Github上学习了他的Technical Report(如需相关资料可私信), 同步梳理了脑图如下。不得不说,DeepSeek是颠覆式的大模型,在MMLU-Pro等大模型测试上,和全球巨头站在同一身位。 于此同时,市场也关注到了DeepSeek的一些参数(训练时间是LIama 3的1/11;价格是Claude 3.5的1/11), 不少领导担心训练侧大幅降本,引发算力需求下降。 我们认为,DeepSeek V3的成功,并不意味着算力需求下降。实际上是#DeepSeek参数有歧义,才造成了市场的误读。 从训练到推理、算力需求持续增长。 1,DeepSeek V3的训练成本仅考虑单次训练,而实际大模型的训练需要:1)大量高质量数据的合成及清洗;2) 充分的预训练;3)多个MoE专家模型的多次训练; 2,AI应用和AI终端的落地节奏正在加速,推理侧将带来远超训练侧的算力需求, 我们测算仅字节豆包未来就需要50-100万张等效H100算力需求。 CSP引领AI新范式。 我们在策略报告中强调,公开数据增速无法匹配大模型发展需求,预训练的Scaling Law已结束, 采用私域高精度数据进行垂直领域专家大模型的训练将成为Scaling Law 2.0; 云厂商从模型到算力,从云端到终端全面布局,形成完美的商业闭环, 在下一轮AI产业叙事中,建议重点关注云厂商合作伙伴的投资机会。#DeepSeek V3
0 阅读:37
好运罐头

好运罐头

职场上的那些事