Grok3能碾压DeepSeek吗算力消耗是DeepSeek的263倍,

阎象谈娱乐 2025-02-18 15:31:47

Grok3能碾压DeepSeek吗 算力消耗是DeepSeek的 263 倍 , 关于Grok3的性能价格使用和一切! AI创造营

首先感谢马斯克没有让我打脸:马斯克: Grok 3 “聪明得可怕!”,关于Grok 3一些解密和预测,和o1 的比分如下,不多也不少正好比15%多一丢丢:(图2)

图3

图表的核心内容分为三个测试领域:数学(AIME'24)、科学(GPOA)和编程(LCB Oct-Feb)。每个领域都对比了六个主要模型的表现,包括Grok-3系列、OpenAI的模型(o3mini和o1)、DeepSeek-R1以及Gemini-2。在数学能力测试(AIME'24)方面:Grok-3表现最为出色,其中Grok-3 Reasoning Beta达到了96分的高分,而Grok-3 mini Reasoning也获得了93分。这个测试特别有意义,因为AIME是美国数学邀请赛,属于高难度数学竞赛,能在这种级别的测试中取得如此高分说明模型具备相当强的数学推理能力。其他模型的表现依次递减,从o3mini(high)的87分到Gemini-2 Flash Thinking的73分。在科学知识评测(GPQA)中:

各个模型的表现差距相对缩小,分数分布在71-85分之间。Grok-3系列仍然保持领先地位,分别获得85分和84分。这表明在科学领域的问题处理上,各大模型的能力相对更为接近,但Grok-3的优势仍然明显。在编程测试(LCB Oct-Feb)方面:

这个领域展现出了较大的分差,从Grok-3 Reasoning Beta的80分到Gemini-2 Flash Thinking的46分。特别值得注意的是,这个测试周期(10月至2月)反映了模型在持续时间内的编程能力表现。

0 阅读:0
阎象谈娱乐

阎象谈娱乐

感谢大家的关注