马斯克现场演示Grok3称超越DeepSeekV3Grok3失败迹象很明显，硬

马斯克现场演示Grok3称超越DeepSeekV3

Grok3失败迹象很明显，硬撑着搞分数

马斯克一开始让演示生成飞向火星代码，就翻车了，Grok3输出直接崩溃，两次生成失败。后来尬聊，让后台第三次生成才成功了。

整个演示多次就是放PPT，说分好分高，最强大模型，根本不敢放开来随便用。

其实分数没拉开差距，如LMSYS得分1400分和1360分差别不大。但是画图从1300分开始，似乎差距挺大。只能说是追平主流水平，应该是借鉴了Deepseek的强化学习办法。然后哪里玩点特别训练，分就高一点。

这个LMSYS是个大模型竞技场，互相比较，看胜负算等级分。1400分和1360的两个大模型对决，预期胜率是55.7%，其实没多少优势，很多问题也输。这基本算是各有所长，基本一个水平。

而Grok3用20万个H100硬冲，资源很多，耗费很大，最后做出来也没什么惊人的东西，没什么算法创新。

而且很可能Grok3是不好用的，bug多，例如说9.11比9.8大。这些不是训练算力能解决的，而是需要精巧的“训练管线”，组织训练不断提升。用RLHF把人类体验好好提高，很多窍门，算力没那么关键，感觉Grok3开发团队还不太懂，就和Grok2一样很难用。

Grok这个系列从来口碑就不太好，是马斯克狂吹撑着的。没有用户体验支持。

最关键的是运行成本，如果不优化硬干，开高价立刻完蛋，没人用了，开低价又赔钱。Grok3应该是不太行，没有大规模优化成本的经验。

所以，马斯克说要把Grok3发射到火星上去。地球上客户应该不多。

0 阅读：81

梁文峰向左，马斯克向右！2🈷18日，马斯克屡屡跳票的Grok3终于面世了。