众力资讯网

AI自己写代码造出了一个新AI,然后刷新了世界纪录 这件事正在真实发生。 5月2

AI自己写代码造出了一个新AI,然后刷新了世界纪录
这件事正在真实发生。
5月26日,国产AI公司面壁智能发布了一个叫ForgeTrain的预训练框架。这套框架本身的代码,不是人类程序员写的——是AI自己生成的。然后他们用这套AI写的框架,训练出了一个只有10亿参数的新模型,取名MiniCPM5-1B。
然后这个模型一出手,就刷新了2B以下模型的世界纪录。
听起来像标题党,我们说细节。
预训练框架是什么?它是训练大模型最底层的基础设施,就像盖楼之前要先打地基。全世界最著名的预训练框架是英伟达的Megatron,背后是英伟达十几年的工程积累。面壁智能的ForgeTrain,训练速度比Megatron还快10%。同样一块GPU,用ForgeTrain比用Megatron每天能多跑10%的训练任务。成本随之降低。
这个速度优势不是人优化出来的,是AI自己跑出来的。面壁智能搭了一个自动化的"考场",把需求丢给AI,AI生成代码,上机跑,跑完给反馈,改,再跑。整个过程全自动,不需要人插手。
用这套流水线跑出来的ForgeTrain,又训练出了MiniCPM5-1B这个模型。
参数只有10亿,什么概念?参数量越小,意味着运行成本越低,部署越容易。手机上跑大模型,就是靠把模型做小。但小通常意味着笨。MiniCPM5-1B偏偏打破了这个规律——在国际权威榜单AA-Index上,它超越了所有2B以下模型,而且只用了3个月就把参数规模从2B砍到1B,性能反而更强。
这背后指向一个越来越清晰的趋势:大模型的智能密度正在飞速提升,不再只靠把参数越堆越大来变聪明。更小的模型,也可以很能打。
当然,这件事最让人心里一动的地方不是技术本身,是那个画面:AI自己写出代码,代码又造出新的AI,新的AI继续变强。这件事现在还在L3阶段——AI端到端产出下一代模型,距离L5的AI完全自主研发还有距离,但齿轮已经开始转动了。
面壁智能把这件事分成了5个等级。L1是AI给建议,人类执行;L2是AI辅助完成具体环节;L3是AI端到端产出下一代模型;L4是AI递归自改进;L5是AI自己定研究方向。
ForgeTrain踩在L3到L4之间。这不是终点,但确实是路上一个真实的脚印。
有意思的是,ForgeTrain在华为昇腾芯片上也跑通了,比昇腾原生框架还快10%。国产AI硬件一直有个短板是软件生态不如英伟达,现在面壁智能用AI的思路在补这个短板。人不够,AI来凑。
ForgeTrain和MiniCPM5-1B现已全面开源,在GitHub和Hugging Face都能找到。AI新阶段 AI开发流程