众力资讯网

细化分析为啥李想之前说M100芯片可随AI一起进化2026年3月30日李想说马赫

细化分析为啥李想之前说M100芯片可随AI一起进化2026年3月30日李想说马赫100采用的数据流架构,是一种为AI原生设计的芯片架构。传统GPGPU由指令驱动,数据在计算单元和全局内存之间反复搬运,规模越大瓶颈越大。而数据流架构由数据驱动,计算单元之间直接传输数据,执行效率更高,带来更高的有效算力。而且它是完全可编程的,不是把算法焊死的ASIC,AI怎么进化,它就怎么进化,灵活性也更高。

本文基于对2026年4月20日理想发布M100: An Orchestrated Dataflow Architecture Powering General AI Computing的分析,如果TOP2有错误理解的地方,感恩指出。

特斯拉FSD是DSA(领域定制架构),其核心思路是将特定的神经网络操作直接硬连线成固定的硬件流水线。这种做法在针对特定算法时效率极高,理想认为过度定制的硬件往往无法高效适配新的网络结构。

M100没有把任何具体算法固化进硬件,而是把软硬件的契约建立在张量这一层。其硬件包含 14 个张量处理块集群,共计 56 个张量处理块(TPB),采用分层总线架构互连。硬件本身不知道什么是感知网络、什么是预测网络,只负责接收并执行张量级别的计算和搬运指令。复杂的、随算法不断变化的执行逻辑,被整体上移交给了分层编译器,由其中的空时调度器在空间(分配到哪个计算块)和时间(流水线阶段)两个维度上,对神经网络重新映射和切分。算法发生进化时,硬件的物理结构不需要改变,只需要编译器重新生成一套编排方案。

李想所说的完全可编程,准确地讲是张量粒度上的可编程,而非GPGPU那种任意计算粒度的可编程。这一区分对应着两层边界。

物理层面,M100把绝大部分硬件资源倾斜给了规则的张量与向量计算,对于无法张量化、高度不规则的细粒度计算,只能交由内置的轻量级 RISC-V CPU 核处理。如果未来 AI 模型在关键路径上严重依赖此类不规则计算,这些轻量级 CPU 会成为算力瓶颈,旁边庞大的张量计算单元只能闲置。

逻辑层面,M100的高效执行依赖编译器对数据流图的提前空时编排,而提前编排的前提是计算图相对静态、可预测。如果算法演进出高度动态的控制流——下一步的网络结构和数据流向完全取决于实时的计算结果——编译器将无法提前规划数据搬运路径,M100 显式管理内存和数据驱动执行的优势便无从发挥。

所以AI怎么进化它就怎么进化,更准确的表述是:只要 AI 推理仍以规则的张量计算为基本单位,无论是参数量更大的 Transformer,还是引入 MoE 的 MindVLA,M100 都能通过编译器的重新编排来消化;一旦 AI 范式偏离张量计算这个基础,M100 虽然仍能通过内部的CPU与Gather-Scatter DMA降级处理,但其数据流架构的效率优势会被显著削弱。

回到李想原话的另一半。传统GPGPU采用指令驱动模型,依赖多级缓存来管理数据搬运。AI推理主要表现为流式张量计算,缓存命中率具有极大的不可预测性,模型规模越大,计算单元等数据从全局内存搬运到缓存的时间就越长,算力闲置越严重,形成所谓的规模瓶颈。

M100放弃了多级缓存,改用显式管理的片上SRAM与可编程DMA。所有数据搬运的路径、时机和目的地址,都由编译器提前规划好,运行时不再依赖硬件的缓存命中猜测。

在执行层面,M100仍然保留了一个中央控制块,负责通过指令链总线(Instruction Chain Bus)把张量指令广播给各个张量处理块,但每个处理块在收到指令之后并不立即执行,而是等待数据就绪。硬件级的同步计数器记录上游计算单元的完成进度,下游单元监听到计数器变化、确认所需数据已经写入对应内存之后,才启动自己的计算。指令的分发权仍然集中在中央控制块,执行的触发权下放给了数据本身的就绪状态。

李想所说的计算单元之间直接传输数据,准确地讲:在张量处理块内部,功能单元之间通过高带宽共享内存(HBSM)交换数据;在张量处理块之间,则通过片上总线进行点对点或广播式传输。它们之间没有 GPGPU 那种自动缓存嗅探机制,所有数据搬运的路径、时机和地址都由编译器提前规划。它之所以仍然比 GPGPU 高效,不是因为搬运距离更短,而是因为这些路径在运行时不再有任何猜测;触发计算的是数据的就绪状态,而非按顺序执行的指令流,计算与搬运在时间上高度重叠,从而带来更高的有效算力。这条路径同样有边界——一旦编译器无法提前看清数据流图,这套机制就会失去前提。

M100 的高效与灵活,都建立在同一个前提之上:AI推理仍以规则的张量计算为基本单位,计算图相对静态、可预测。

理想汽车理想汽车