众力资讯网

梁文锋又冲上热搜了! 这次既不是团队内讧也不是技术翻车, 反倒给AI圈扔了颗惊雷

梁文锋又冲上热搜了!
这次既不是团队内讧也不是技术翻车,
反倒给AI圈扔了颗惊雷。而是他们居然又
​​开发了新的模型!1月21日外媒曝光,梁文锋在DeepSeek发布推理模型R1一周年之际,新模型“MODEL1”的项目名在开源社区悄然出现。

我扒了开源社区的原始代码和技术标注,发现MODEL1压根不是R1的简单迭代,而是在GitHub的FlashMLA框架里全新重构的架构,光核心技术标识就改了六十多处,懂行的一眼能看出来,这是憋了一整年的硬货。

外界现在都在猜MODEL1的定位,有人说是R1的升级版R2,也有人猜是旗舰V4模型,还有人觉得是V3系列的终极版本。但从代码里的键值缓存布局、FP8格式解码优化能确定,它的核心目标就一个:把算力利用率再拉满,用小钱办大事。

这正是梁文锋最核心的打法,也是他和其他AI玩家最不一样的地方。别人都在拼算力堆资源,动辄几百上千张GPU砸进去,他偏死磕技术优化,把英伟达GPU的性能榨到极致,这招低成本高战力,直接打破了大厂的算力垄断。

去年R1发布时就凭这招掀了AI圈的桌子,性能比肩OpenAI的o1,却把训练和推理成本压到别人的三分之一,直接逼得国内大厂扎堆跟进推理模型,连英伟达都慌了,股价一夜蒸发6000亿,还赶紧改了芯片适配方案。

更有意思的是,MODEL1曝光前,DeepSeek刚悄咪咪发了两篇技术论文,新的残差连接优化、仿生物记忆模块,全是为新模型铺路的。我问过圈内的算法工程师,他们说这些技术全是行业痛点,整合后性能至少比R1再提一大截。

梁文锋这人从来都是闷声干大事,R1爆火后整个AI圈都围着他转,朱啸虎这类资本大佬递橄榄枝,他直接不接,不融资不扩规模,连公关团队都没有,一门心思扎在实验室里。这年头的AI圈太浮躁,能沉下心做技术的真没几个。

他的这份偏执,其实给中国开源AI撕开了一条生路。过去海外巨头攥着技术壁垒,国内模型要么跟着模仿,要么被算力卡脖子,而DeepSeek靠开源把技术摊开,让中小开发者也能用上顶尖模型,这才是真正的技术普惠。

这次MODEL1还没官宣,整个AI产业链已经绷紧了神经。芯片厂商在调适配参数,开发者在蹲开源权重,连海外的OpenAI、谷歌都在密切关注,毕竟R1已经让中国开源模型在Hugging Face下载量反超美国,新模型落地只会更有冲击力。

有人说梁文锋是AI圈的“孤勇者”,这话真的很贴切。别人都在追商业化赚快钱,他偏守着开源的初心死磕技术,硬生生用一个小团队,跟全球顶尖的AI巨头掰手腕,还掰出了中国模型的底气。

现在MODEL1已经到了部署前的最后测试阶段,就等梁文锋的一声官宣。这波新模型落地,怕是又要让整个AI圈重新洗牌,更重要的是,它让所有人看到,中国AI的突围,从来不是靠堆钱,而是靠实打实的技术硬实力。

读者们,你们怎么看呢?欢迎在评论区留言讨论。