众力资讯网

今天小米大模型正式宣布,在通用GPU上实现了万亿参数模型1000 tokens/

今天小米大模型正式宣布,在通用GPU上实现了万亿参数模型1000 tokens/s的推理速度,刷新了全球旗舰大模型的最快纪录。

很多人可能会说,1000 tokens/s不是早就有了吗?万亿参数模型也不是什么新鲜事。

没错,单独看这两个指标都不稀奇。但把它们放在一起——万亿参数规模的旗舰模型,跑出1000 tokens/s的速度,目前全球独此一家。这才是真正的含金量所在。

小模型跑得快很容易,因为参数少,计算量小。但参数规模直接决定了模型的能力上限,小模型再快,在复杂推理、长文本理解、多轮对话这些核心场景上,永远赶不上大模型。

更重要的是,小米这次不是在实验室里用专用AI芯片跑出来的纸面数据,而是在通用GPU上实现的。这意味着这个速度不是只能在实验室里看看,而是可以真正落地到实际应用中,大规模部署给用户使用。

他们没有为了速度缩小参数规模,也没有为了速度牺牲模型能力,更没有把模型做成只能做某一件事的专用模型。这个高速版的万亿参数模型,在保持原有能力指标完全不变的前提下,把推理速度提升到了1000 tokens/s。

这不是靠堆硬件堆出来的,靠的是算法、系统、推理三层的全链路协同优化,把通用GPU的每一分性能都榨干了。AI Agent领域,推理速度的重要性怎么强调都不为过。AI Agent不是一次性的问答,而是需要多步推理、多轮交互的复杂工作流。以前Agent每一步都要等几十秒,整个工作流被拖得稀碎,现在有了毫秒级的响应速度,Agent终于能像人一样流畅地干活了。这是真正的Agent生产力的释放。

它不仅刷新了全球最快推理速度的纪录,更重要的是,它打破了很多行业固有的认知,证明了大模型可以同时做到又快、又强、又通用。

AI的时代真的来了,而且比我们想象的来得更快。而小米,已经站在了这个时代的最前沿。小米大模型刷新全球最快推理速度