众力资讯网

突然杀出!一个连官网都没有的中国AI团队,以73.1%的胜率冲进全球前七,紧咬O

突然杀出!一个连官网都没有的中国AI团队,以73.1%的胜率冲进全球前七,紧咬OpenAI,全网都在追问:这到底是谁家的高手?
这个神秘代号叫MopMonk,中文译名“扫地僧”。
它一夜之间杀入CyberGym全球第七,刷新了中国团队在该榜单上的历史最高分。
CyberGym的分量不容小觑。
它由UC Berkeley团队打造,核心论文入选ICLR 2026顶会,被业内称为“AI安全领域的奥运会”。
整个基准收录1507个漏洞实例、188个开源大项目,全部取自真实历史漏洞,体量是此前最大公开基准的7.5倍。
微软、OpenAI、谷歌、Meta、智谱等头部玩家几乎全员到场,能在这里站上第七,含金量极高。
它凭什么赢?我梳理出三个关键。
第一个,它选的基座是来自上海的开源模型MiniMax M3,集编程能力、百万token上下文与原生多模态于一身,SWE-Bench Pro拿下59.0%。
第二个,它构建了结构化的“漏洞记忆”,把每一次试错都转化为下一步可复用的硬约束,让漏洞挖掘从反复试错变成基于证据的收敛。
第三个,它用多Agent共享同一份记忆并行探索,既扩大覆盖面,又避免重复无效劳动。
这件事真正的启发在于:决定胜负的,不再是谁的参数更大,而是Agent的执行力,是Harness这层工程的厚度。
模型基座会一代代换,但一套被真实战场打磨的Harness,才是能持续复利的资产。
这正是中国团队示范的一条新路:把开源基座做到极致,照样能跻身全球第一梯队。