还有数码博主说deepseek不如豆包的。这貌似不是一个层级[允悲]
就好像小米电机和劳斯莱斯比乘坐舒适度。
deepseek真正的意义,是打破美国的ai泡沫。它是一个大模型,不是一个应用软件。deepseek的APP只是一个接口而已。它的算法可以复制到几乎任何大模型的构建。而豆包是一个终端产品,不止使用一个大模型,还喂了海量数据。是字节跳动整合抖音在内的生态做出来的。
deepseek的意义,在于打破美国的ai泡沫。这是不亚于美国次贷危机的大事件。一个中国搞量化交易的公司顺手开源的一个副产品,仅仅500万美元就能达到甚至超越美国千亿美金的同等大模型。美国科技巨头吹起来的资本泡沫,拉动的投资和产业链,包括英伟达显卡,各种泡沫都可能被打破。美国现在还是震惊和恐慌的阶段。如果他们能破解deepseek,复制deepseek的路,那么他们的护城河就等于要放弃了。先投资的先倒霉。
如果他们复制不了,或者不去复制继续用原本的计划,那么市场都会被deepseek抢走。
所以deepseek打开了路线之争。美国面临巨大压力。科技巨头怎么解释海量资金花在哪了?为什么中国面临层层封锁都能弯道超车,用1%的钱达到99%的效果。关键在于中国的技术是先进的。
DeepSeek V3使用的MLA通过引入低秩联合压缩技术,将键和值矩阵压缩为潜在向量(Latent Vectors),这就可以帮它大大减少内存占用和计算开销。
除了这些,DeepSeek V3还自创了一种DualPipe流水线并行算法,这也是其高效训练框架中的一项关键技术。
在训练大规模AI模型时,通常需要将计算任务分配到多个GPU或节点上进行分布式训练。然而,分布式训练面临两个主要挑战: 计算与通信的串行化:在传统流水线并行中,计算和通信操作通常是串行进行的,即在进行通信时,计算资源处于空闲状态,导致资源浪费; 通信开销:在跨节点训练中,数据传输(如梯度同步)会占用大量时间,成为训练效率的瓶颈。
DeepSeek V3的DualPipe流水线并行算法通过将计算与通信时间完全重叠,最大化硬件资源的利用率,从而显著提升训练效率。DualPipe算法将训练过程分为两条独立的流水线:计算流水线和通信流水线。 计算流水线负责模型的前向传播和反向传播,而通信流水线负责跨节点的数据传输(如梯度同步)。这两条流水线可以并行运行,互不干扰。
DualPipe流水线并行算法在实际应用中取得了显著效果,通过将计算与通信时间完全重叠,DualPipe算法将硬件资源的利用率提升到了接近100%。而且,由于计算和通信并行进行,训练时间显著缩短,尤其是在大规模分布式训练中效果更为明显。通过优化通信内核和充分利用高速网络带宽,DualPipe算法将通信开销也降到了最低。
此外,在深度学习训练中,传统的浮点数精度通常是32位(FP32)或16位(FP16)。混合精度训练通过在不同计算阶段使用不同精度的浮点数(如FP16和FP32),在保持模型性能的同时,减少内存占用和计算开销。然而,随着模型规模的不断增大,FP16和FP32的计算和存储开销仍然较高。
为了进一步优化资源利用,DeepSeek V3引入了FP8混合精度训练。FP8是一种8位浮点数格式,其存储和计算开销仅为FP16的一半,FP32的四分之一。包括Llama系列、Mixtral 8x7B、Inflection-2、零一万物的双语LLM模型以及COAT框架下的模型,都通过FP8技术显著提升了训练效率和资源利用率,同时保持了模型性能。
DeepSeek V3还采用了多令牌预测目标(Multi-Token Prediction, MTP),在训练过程中,模型不仅预测下一个令牌,还同时预测后续的多个令牌。例如,给定输入序列“我喜欢吃”,模型可能同时预测“苹果”“香蕉”“与/和”等多个令牌。这种密集的训练信号显著提高了数据利用率,减少了训练所需的样本数量。在推理阶段,模型能够同时生成多个令牌,从而加速文本生成过程。
概括起来就是,中国靠现有技术和原创的路线,打败了遥遥领先的美国ai。
大家有兴趣可以了解一下幻方量化。
量化交易需要处理海量数据并进行实时分析,这与AI大模型的训练和推理需求高度契合。幻方量化在高性能计算和分布式系统上的经验,可以直接应用于大模型的开发。同时,量化交易中的算法优化技术(如深度学习、强化学习)与大模型训练中的优化策略(如混合专家架构、FP8混合精度训练)有共通之处。这些技术可以相互借鉴,提升效率。
所以他们顺手搞了一下,就把美国神话打破了[笑cry]如果能作为平替,并且促进开源体系的发展壮大,那么中美的ai竞争就到了同一起跑线。壁垒被打破,制裁也被打破了。中国又有一个公司要威胁美国国家安全[允悲]华为大疆有伴儿了。