推上AI大佬实测 DeepSeek-R1 671B模型可以直接使用 AMD EPYC 无需显卡,输出速率6-8 token/秒,成本6000刀 [并不简单]
网友实测:“最近正好详细测试过这个,2路epyc 9755,单颗cpu支持12通道,内存为ddr5 4800
直接下结论:线程数开到64时最快(单颗CPU核心数一半),所以双路epyc512线程完全没用,超线程没用,甚至有反效果,token最高为5.89t/s
影响最大因素为加载模型时在内存条上的权重分配方式,即实际等效内存带宽为最大影响因素
最有效配置应该为单颗64-96核心,单核通道数越多越好,内存频率越快越好,不用开超线程。
成本多少可以自己淘宝,大概是6-8w
上面环境跑r1:32b q4最高生成速度为14.85t/s,多测几次会略有误差
使用单颗epyc 9655环境 12通道ddr 5 5600,同模型,可以达到16.89t/s,差距接近内存总带宽。”
结论:影响DeepSeek-R1本地部署处理速度的是内存总带宽,跟cpu速度弱相关,整套系统功耗很低,10万美元 [偷笑]
来自NGA