根据 Blackwell GPU 目前每秒可生成约 5 亿至 200 亿个输出令牌,具体取决于上下文长度。推理能力每年增长 3.4 倍。令牌需求每年增长 10 倍。
长上下文工作负载(例如,编码代理、文档分析)首先触及供应上限,因为它们受内存带宽瓶颈限制,而非计算能力。
计算短缺意味着前沿模型价格上涨,而更小、更便宜的模型则在短缺中吸收日常简单任务的使用(这种短缺可能已经到来)。



根据 Blackwell GPU 目前每秒可生成约 5 亿至 200 亿个输出令牌,具体取决于上下文长度。推理能力每年增长 3.4 倍。令牌需求每年增长 10 倍。
长上下文工作负载(例如,编码代理、文档分析)首先触及供应上限,因为它们受内存带宽瓶颈限制,而非计算能力。
计算短缺意味着前沿模型价格上涨,而更小、更便宜的模型则在短缺中吸收日常简单任务的使用(这种短缺可能已经到来)。


