众力资讯网

Mistral 发布了 Mistral Small 4,这是一个开放权重模型,支

Mistral 发布了 Mistral Small 4,这是一个开放权重模型,支持混合推理和图像输入,在 Artificial Analysis Intelligence Index 上得分 27 @MistralAI 的 Small 4 是一个 119B 专家混合模型,每个 token 激活 6.5B 参数,支持推理和非推理模式。 在推理模式下,Mistral Small 4 在 Artificial Analysis Intelligence Index 上得分 27,比 Small 3.2(15)提高了 12 分,现在已成为 Mistral 发布的最智能模型之一,超过了 Mistral Large 3(23),并与专有模型 Magistral Medium 1.2(27)持平。然而,它落后于参数总量相似的开放权重同行模型,例如 gpt-oss-120B(高分,33)、NVIDIA Nemotron 3 Super 120B A12B(推理,36)和 Qwen3.5 122B A10B(推理,42)。 关键要点: ➤ 单模型中的推理和非推理模式:Mistral Small 4 支持可配置的混合推理,包含推理和非推理模式,而不是 Mistral 之前在其 Magistral 模型中发布的独立推理变体。在推理模式下,该模型在 Artificial Analysis Intelligence Index 上得分 27。在非推理模式下,该模型得分 19,比其前身 Mistral Small 3.2(15)提高了 4 分 ➤ 比同等规模的同行模型更节省 token:在约 52M 输出 token 的情况下,Mistral Small 4(推理)在运行 Artificial Analysis Intelligence Index 时使用的 token 比推理模型更少,例如 gpt-oss-120B(高分,约 78M)、NVIDIA Nemotron 3 Super 120B A12B(推理,约 110M)和 Qwen3.5 122B A10B(推理,约 91M)。在非推理模式下,该模型使用约 4M 输出 token ➤ 原生支持图像输入:Mistral Small 4 是一个多模态模型,可接受图像输入以及文本输入。在我们的多模态评估 MMMU-Pro 上,Mistral Small 4(推理)得分 57%,领先于 Mistral Large 3(56%),但落后于 Qwen3.5 122B A10B(推理,75%)。gpt-oss-120B 和 NVIDIA Nemotron 3 Super 120B A12B 均不支持图像输入。所有模型仅支持文本输出 ➤ 在现实世界代理任务中取得改进:Mistral Small 4 在 GDPval-AA 上获得 871 的 Elo 分数,这是我们基于 OpenAI 的 GDPval 数据集的评估,该数据集测试模型在 44 种职业和 9 大主要行业中的现实世界任务,模型在代理循环中生成交付物,如文档、电子表格和图表。这比 Small 3.2(339)的 Elo 分数高出一倍多,接近 Mistral Large 3(880),但落后于 gpt-oss-120B(高分,962)、NVIDIA Nemotron 3 Super 120B A12B(推理,1021)和 Qwen3.5 122B A10B(推理,1130) ➤ 比同等规模的同行模型幻觉率更低:Mistral Small 4 在 AA-Omniscience 上得分 -30,这是我们对知识可靠性和幻觉的评估,分数范围从 -100 到 100(越高越好),负分表示错误答案多于正确答案。Mistral Small 4 的得分领先于 gpt-oss-120B(高分,-50)、Qwen3.5 122B A10B(推理,-40)和 NVIDIA Nemotron 3 Super 120B A12B(推理,-42) 关键模型细节: ➤ 上下文窗口:256K token(比 Small 3.2 的 128K 增加) ➤ 定价:每 1M 输入/输出 token 0.15 美元/0.6 美元 ➤ 可用性:仅限 Mistral 第一方 API。以原生 FP8 精度计算,Mistral Small 4 的 119B 参数需要约 119GB 来自托管权重(超过单个 NVIDIA H100 的 80GB HBM3 内存) ➤ 模态:图像和文本输入,仅文本输出 ➤ 许可:Apache 2.0 许可