中国Deepseek为何震惊了国内外,特别是美国人?①性能卓越。比肩顶尖模型:D

字母科技 2025-01-27 11:31:37

中国Deepseek为何震惊了国内外,特别是美国人?

①性能卓越。比肩顶尖模型:DeepSeek-R1在数学、代码、自然语言推理等任务上,性能可与OpenAI的GPT-4o、Claude-3.5等顶尖闭源模型相媲美,在AIME 2024和CNMO 2024等数学测试中还超越了所有已知的开源和闭源模型。

② 训练资金少:DeepSeek仅花费约600万美元就完成了新模型的训练,而OpenAI每年的花费估计高达50亿美元,谷歌2024年的预计资本支出更是超过500亿美元。

③算力需求低。只用了2048张英伟达H100的GPU集群,53天就完成训练,在面临美国对中国实施半导体出口管制的情况下,DeepSeek使用相对普通的H800芯片也能训练出高性能的模型。

④方便复现:加州大学伯克利分校、香港科技大学、HuggingFace等纷纷成功复现DeepSeek成果,只用强化学习,没有监督微调,甚至几十美元的成本就能完成复现,这在AI领域是极为罕见的。

⑤高效低成本。采用混合专家架构,将模型拆分为256个“专家模块”,每个模块专精特定领域,通过稀疏激活机制,每次推理仅激活5%的专家模块,算力消耗降低90%。

抛弃传统的“预训练+监督微调”模式,改用纯强化学习驱动的训练模式,让AI像打游戏一样自主升级,通过不断试错寻找最优路径,无需高价聘请人类标注答案,数据成本降低95%。

⑥打破了美国对中国AI技术封锁。美国对中国实施半导体出口管制,限制高性能芯片对中国的出口DeepSeek在受限情况下,使用H800等相对普通的芯片,仅用2048张英伟达H100的GPU集群,53天就完成训练,取得重大突破,打破了美国认为限制芯片就能限制中国AI发展的想法。

⑦对美国AI发展理念冲击巨大。美国AI发展模式注重大量资金、算力和数据投入,DeepSeek则通过创新算法、架构和训练策略,用较少资源实现高性能,为AI发展提供新方向,让美国反思其发展理念和路径,不再认为高投入是AI成功的唯一途径。

0 阅读:0
字母科技

字母科技

感谢大家的关注