DeepSeek为何一夜爆火 DeepSeek在AI领域一夜爆火。究其原因,核心在于技术、成本、性能与影响力四个层面。
1、技术上,它创新采用MoE架构,推理与多模态能力出色。DeepSeek的大语言模型基于transformer架构,采用了Mixture - of - Experts(MoE)这一创新的设计思路。该架构的核心原理是将任务分配给多个专家模型进行处理,每个专家模型专注于特定的子任务。
2、成本方面,上个月发布的V3模型,仅用550万元和2000张卡就打造出了与OpenAI几亿投入烧出来的一样好的模型。
3、性能表现同样可圈可点,多项基准测试成绩优异。DeepSeek - llm 67b base在推理、编码、数学和中文理解等方面超越了llama2 70b base;DeepSeek - llm 67b chat在编码和数学方面表现出色,还展现了显著的泛化能力,在匈牙利国家高中考试中取得了65分的成绩,并且在中文表现上超越了gpt - 3.5。DeepSeek - coder在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能;DeepSeek - math 7b在竞赛级math基准测试中取得了51.7%的优异成绩,且未依赖外部工具包和投票技术,接近gemini - ultra和gpt - 4的性能水平;DeepSeek - vl系列在相同模型尺寸下,在广泛的视觉 - 语言基准测试中达到了最先进或可竞争的性能。
4、华尔街顶级风投a16z创始人marc andreesen的称赞,无疑为DeepSeek增添了极具分量的权威背书,以及海外主流媒体的广泛报道,进一步提升了它的影响力。DeepSeek的成功,为AI发展开拓新思路,也让我们看到了AI领域更多的可能性。