DeepSeek与华为推理合作是更大创新点。 深圳与杭州一次成功合作,共同推进了

糖果杠历史 2025-02-02 08:35:25

DeepSeek与华为推理合作是更大创新点。 深圳与杭州一次成功合作,共同推进了开源和Pytorch架构 知识蒸馏技术比较成熟,这个技术是谷歌发明的,放进TensorFlow框架内给大家用。 华为GPU最近一段时间加强对客户推理方面的支持,华为支持PyTorch框架,增加了推理模块,这个框架在知识蒸馏上比较晚。DeepSeek用华为910B搞推理。 DeepSeek推理从使用者角度看,提供数据来源,展示思考链,总结最后结果,给不同实现方法,提高可信性。技术上是对查询进行多次推理处理,抛弃监督微调过程的强化学习把问题分步解决,共识和搜寻等方法减少幻觉来生成最佳答案。 DeepSeek用Tensflow知识蒸馏,稀疏矩阵剪枝,量化。推理用pytorch,估计是与华为共同搞得,搞好后pytorch组织也接受,pytorch知识蒸馏也补上了,以后就可以用华为GPU。 第二大创新是风格迁移,DeepSeek显得更人性,更有文化,回得快,很热情,提供思考链比较可信,更会讨好人,使用者觉得受捧。团队里文科博士比较多,可能是这个目标。风格一般是艺术框架。最终的价值观竞争更有优势。 Deepseek已经受企业欢迎,性能强大,价格低,质量好,可以推广企业广泛使用,有企业用后马上见到效益。推理能力强大,数学水平高。还特别能讨好人,速度快,很热情。 业界认为DeepSeek键值KV的缓存机制,查询更有效率,训练质量水涨船高。 采用混合专家系统,分解数据,不断知识蒸馏迭代,提高训练效率,是资源受限结果.H800因为通信带宽限制,只能用2000个GPU。 DeepSeek注意力机制空间折叠,提高视频图像训练,只要128块A100。 DeepSeek直接进入字节码和汇编层,一般用英伟达调用CUBA再编译成ptx字节码,直接进入ptx和汇编大幅度提高GPU效率,深圳莫斯科大学最近也实现GPU速度超过800倍。opensai创办人说算法提高效率1000倍,数据提高100倍,设备提高10倍。 Deepseek多平台 在INTEL AMD微软 英伟达 等使用。可以脱机使用,但只能用它的推理能力。 DeepSeek 后台支持积累经验丰富,不断优化,也是成功原因。

0 阅读:272
糖果杠历史

糖果杠历史

感谢大家的关注