DeepSeek3.1压根不是小修小补,根本就是个全新版本。 之前吹的V4可能就被它顶了,只是架构重整所以改名上场。 这玩意是融合架构模型。以前模型分通用版、推理版、多模态版,现在V3.1一锅端,直接统一成一个模型。既能聊天写代码,又能深度推理,还能搞图像生成和修改,连推理过程都给你显示出来。 第二是速度炸裂。响应速度直接翻倍,底层全部重调。这明显是之前传的V4或R2方案,只是团队觉得还不完美,先甩出来试试水。 第三,全栈华为昇腾。从训练到推理,全是国产硬件架构支撑,CloudMatrix 384超级节点扛得住。这一波就是用事实打脸,谁说国产芯片跑不动大模型? 参数规模稍微降了点,从六百多B降到六百出头,但效果反而更强。融合模型这条路明显走通了,一个模型干所有事,和GPT5一个思路。 接下来估计一堆企业要抢着接入。之前0528版本已经刷榜登顶,这版3.1估计排名还要窜。但这还不是终极形态,梁老板心中那个完美模型估计还在憋大招。 #deepseek V3.1#
“中美差距究竟有多大?”DeepSeek创始人梁文峰再次语出惊人!他说:“我们经
【6评论】【6点赞】