你的手机接入DeepSeek了么华为应该是第一波就介入了DeepSeek的,尤

科技有意思3c 2025-02-11 11:52:30

你的手机接入DeepSeek了么

华为应该是第一波就介入了DeepSeek的,尤其是升级了纯血鸿蒙的朋友,我个人理解这个其实更偏向于基础大模型,这个对于各大厂商本身训练自家的模型有更大作用。

我个人其实感兴趣的点在于,DP本身对于AI最强落地,智能驾驶本身的作用,DP云端大模型对端侧大模型的提升。

DeepSeek 架构或成为全栈自研智能驾驶大模型架构的车企/供应商的主要选项,同时开源模型有望在云端训练上实现成本优势的复刻。车企有望通过介入DeepSeek 并推出 DeepSeek-R1 Beta 版本,持续优化训练算力的成本优势,实现智能

驾驶成本的大幅度下降和高阶功能的工程化落地。华为小艺持续加速与DeepSeek 的合作,助力自身模型的持续发展。

简单归纳了一下DP的算法优势

1.DeepSeek 算法优势明显,通过多维度方式降低 GPU 通讯成本,实现训练成本下降。

2.DeepSeek 使用不需要辅助损失函数的专家加载均衡技术,保证每个 token 在专

家网络的充分填充,降低了对数据规模的依赖。3.DeepSeek 可以通过极致的流水线调度,把 GPU 中用于模型训练中数学运算的算力,和通信相关的算力在流水线执

行过程中进行“并行隐藏”,实现了在训练过程所有的时间中 GPU 几乎不间断地进行运算。

4.DeepSeek 充分利用专家网络被稀疏激活的设计,限制了每个 token 被发送往 GPU 集群节点的数量,降低 GPU 间通讯成本。

5.DeepSeek 还实现并应用了 FP8混合精度训练的架构,在架构中的不同计算环节,灵活地、交替地使用 FP8、BF16、FP32 不同精度的“数字表示”,并在参数通信的部分过程也应用了 FP8 传输。

0 阅读:2
科技有意思3c

科技有意思3c

感谢大家的关注