马斯克现场演示Grok3称超越DeepSeekV3
Grok3失败迹象很明显,硬撑着搞分数
马斯克一开始让演示生成飞向火星代码,就翻车了,Grok3输出直接崩溃,两次生成失败。后来尬聊,让后台第三次生成才成功了。
整个演示多次就是放PPT,说分好分高,最强大模型,根本不敢放开来随便用。
其实分数没拉开差距,如LMSYS得分1400分和1360分差别不大。但是画图从1300分开始,似乎差距挺大。只能说是追平主流水平,应该是借鉴了Deepseek的强化学习办法。然后哪里玩点特别训练,分就高一点。
这个LMSYS是个大模型竞技场,互相比较,看胜负算等级分。1400分和1360的两个大模型对决,预期胜率是55.7%,其实没多少优势,很多问题也输。这基本算是各有所长,基本一个水平。
而Grok3用20万个H100硬冲,资源很多,耗费很大,最后做出来也没什么惊人的东西,没什么算法创新。
而且很可能Grok3是不好用的,bug多,例如说9.11比9.8大。这些不是训练算力能解决的,而是需要精巧的“训练管线”,组织训练不断提升。用RLHF把人类体验好好提高,很多窍门,算力没那么关键,感觉Grok3开发团队还不太懂,就和Grok2一样很难用。
Grok这个系列从来口碑就不太好,是马斯克狂吹撑着的。没有用户体验支持。
最关键的是运行成本,如果不优化硬干,开高价立刻完蛋,没人用了,开低价又赔钱。Grok3应该是不太行,没有大规模优化成本的经验。
所以,马斯克说要把Grok3发射到火星上去。地球上客户应该不多。