DeepSeek进军文生图领域deepseek大模型基础进步很大。打听了一下,

烨华聊商业 2025-01-28 11:19:51

DeepSeek进军文生图领域

deepseek大模型基础进步很大。打听了一下,业界人士很震惊,训练居然收敛了,大公司以为不可能

1. deepseek文生图也做到业界顶尖了,这不意外。基础大模型技术突破,必然是数据结构、训练算法、优化技术、训练管线都有突破。而文生图产品,也是这些技术的成果。

2. 认识的业界人士说,技术上很惊。如果搞过大模型训练,会知道有两个难度很高的事。一个是fp8,用8比特代表一个浮点数,这个非常难。别人不是没做过,而是训练会崩,不收敛,什么地方可以fp8,什么地方还得fp16、fp32,不容易。再一个,是混合专家模型MoE,这个也是很难训练的,专家多了曲线很复杂,会陷入局部陷阱。一个都很困难,更何况两个难题一起做成功了。

3. 美国Perplexity的CEO是懂技术的的,也说了fp8和

MoE的事。对中国公司的技术创新能力评价不错。一般人就和图中CNBC的主持人一样叽歪,总觉得中国人不会创新。deepseek真搞了不少不错的创新和优化,如“对偶流水线(Dual Pipeline)机制”,加速计算。

4. 最最关键的成就,就是实现了大公司认为不可能做到的事:直接强化学习“思维链COT”,训练出了deepseek r1-zero,跳过了业界认为必须但是很麻烦的SFT(有监督微调)。大公司不是不知道这么做好,而是尝试失败了,所以业界才给出了“必须SFT才能让AI思考”的结论。

5. 所以,deepseek不是灵机一动,提出了什么绝妙的主意搞出了超级产品,其实这些idea业界多得是。但是,大模型研发的难度在于,它是一个很复杂的过程,里面很多坑,idea要变出好的结果,需要很多工程实现工作。而这正是deepseek厉害的地方,应该都是能干活的年轻人,没什么大佬,打造了一个优秀的大模型工程技术团队。中国和美国大公司反而不一定有这个实力,花钱很多,未必很强,大佬不一定对具体技术问题很懂。所以,确实需要优秀的团队建设能力,也就是执行层面要有技术能力。

6. 以前的迷思在于,总以为硅谷公司多厉害,中国IT产品也多,但原创研发主要是抄。硅谷公司厉害,最根本还是把代码弄出来了,show me the code,大家试了就知道了。这个能力就是工程能力,而这是中国人擅长的。硅谷公司干工程的,中国人就是主力,AI创业团队没中国人,投资人会问,那谁干活?中国能干活的人非常多,非常优秀,顶尖高校毕业生很厉害,985以上的都很强。因此,只要潜心打造技术团队,技术实力是有可能搞到很强的。比硅谷强也是可能的,硅谷成名大佬多了可能还是拖累,创新不如年轻人。

7. 要注意,deepseek开源放出权重的是几个蒸馏的小很多的“小模型”。最厉害的是deepseek r1没有开源,只是大家能测试,信服了。r1开发技术说了很多细节,比美国公司说的多很多,其实主要技术细节是V3的,r1是从V3提升的。业内人士说不容易复制,细节还是不少trick没说。全球几个大学所谓验证技术,是很小规模验证算法原理。Meta已经派了四组人去研究deepseek的技术,不是很容易复制,短期应该出不来。

0 阅读:47
烨华聊商业

烨华聊商业

感谢大家的关注