如果 GPT-5 或者十万卡集群今年还冲不出来,或者即使出来,智能上没有至少两三倍上提高,我觉得开源这一波肯定就完胜了。如果花十倍的成本,性能只提高百分之十,百分之二十,那谁还会花这么多成本去用闭源的?肯定都往开源走了。
今天 DeepSeek 已经做到 DAU 超过 2000 万,差不多在 OpenAI 的 20% 以上了。而且它现在每天下载的人还远超 OpenAI。它的生态可能会发展非常快,如果全世界都已经在 DeepSeek 开源架构上,生态上去研发了以后,那 OpenAI 再开源也没啥意思了。
我觉得2025年应用层可能会极大的爆发。因为DS真的已经好到非常好了,在很多场景上已经足够可用了,而且成本又足够便宜,而且甚至它都是开源的,我可以自己用很低的成本去复现,不用担心在别人的地基上盖房子,对很多应用公司来说是一个很大的解放。所以应用层肯定会有很大爆发。
算力和算法的要求没有那么高,现在核心是高质量的数据。但我觉得 DeepSeek 证明了它表现确实比其他的模型都要好,很多时候它就是初始的训练数据的质量比较高。我觉得以后模型可能就像厨师一样的。我用什么语料来训练,我的参数权重是多少。所以你到底用什么语料进行训练,然后参数权重是怎么样的。
我觉得今天都需要思考这个问题,还需不需要往前再做训练自己的闭源模型。还是就在 DeepSeek 前提上面,为这个整个生态添砖加瓦,或者就彻底转向应用。我觉得这个决定越早越好,越往后越被动。
大部分人,这也是我这两年最大的一个教训,一个吸取的学到的东西,以前我觉得这波 AI 最大的壁垒肯定是在数据飞轮上,但现在看来,包括 DeepSeek,OpenAI,它们自己的研究也是一样的,数据飞轮价值不大,因为大部分用户的数据都是重复的,是低信息含量的,没有意义的。真正有数据飞轮价值的是那些高质量的数据,那些数据真的需要专业人士,各个行业专业人士去打标签。




