推上AI大佬实测DeepSeek-R1671B模型可以直接使用AMDEP

利益慢 2025-01-29 10:41:25

推上AI大佬实测 DeepSeek-R1 671B模型可以直接使用 AMD EPYC 无需显卡,输出速率6-8 token/秒,成本6000刀 [并不简单]

网友实测:“最近正好详细测试过这个,2路epyc 9755,单颗cpu支持12通道,内存为ddr5 4800

直接下结论:线程数开到64时最快(单颗CPU核心数一半),所以双路epyc512线程完全没用,超线程没用,甚至有反效果,token最高为5.89t/s

影响最大因素为加载模型时在内存条上的权重分配方式,即实际等效内存带宽为最大影响因素

最有效配置应该为单颗64-96核心,单核通道数越多越好,内存频率越快越好,不用开超线程。

成本多少可以自己淘宝,大概是6-8w

上面环境跑r1:32b q4最高生成速度为14.85t/s,多测几次会略有误差

使用单颗epyc 9655环境 12通道ddr 5 5600,同模型,可以达到16.89t/s,差距接近内存总带宽。”

结论:影响DeepSeek-R1本地部署处理速度的是内存总带宽,跟cpu速度弱相关,整套系统功耗很低,10万美元 [偷笑]

来自NGA

0 阅读:57
利益慢

利益慢

感谢大家的关注