DeepSeek深夜再放大招 Deepseek对AI行业意义方面,dropbox AI 副总裁 Morgan Brown做了一系列的总结:
1、首先,介绍一些背景:目前训练顶级AI模型的成本极其高昂。OpenAI、Anthropic 等仅在计算上就花费了1亿美元以上。他们需要拥有数千个4万美元GPU的大型数据中心,这就像需要一整座发电厂来运行一家工厂一样。
2、DeepSeek 突然出现并说,如果我们花 500 万美元做这件事会怎么样?”他们不只是说说而已——他们真的做到了。他们的模型在许多任务上匹敌甚至击败了 GPT-4 和 Claude。人工智能世界震动了。
3、怎么做到的?他们从头开始重新思考一切。传统AI就像是把每个数字都写成32位小数,DeepSeek是如果我们只使用 8 位小数呢?它仍然足够准确!砰——所需内存减少了 75%。
4、然后是他们的多标记预测,普通人工智能的阅读方式就像一年级学生一样:“这......猫......坐......”DeepSeek 一次读完整个短语,速度快2倍,准确率高90%。当你处理数十亿个单词时,这一点很重要。
5、但真正聪明的是:他们建立了一个“专家系统”。他们没有使用一个试图了解一切的大型人工智能(比如让一个人同时成为医生、律师和工程师),而是拥有只在需要时才醒来的专门专家。
6、传统模型:所有 1.8 万亿参数始终处于活动状态,DeepSeek总共 671B,但一次只能激活37B。这就像拥有一支庞大的团队,但只召集每个任务真正需要的专家。
7、结果令人震惊:培训成本:1 亿美元 → 500 万美元;所需 GPU:100000 → 2000;API 成本:便宜 95%;可以在游戏 GPU 而不是数据中心硬件上运行。
8、最疯狂的部分都是开源的,任何人都可以检查他们的工作,代码是公开的,技术论文解释了一切。
9、重要的是,它打破了“只有大型科技公司才能涉足人工智能”的模式,你不再需要价值数十亿美元的数据中心,几个好的 GPU 就可以做到这一点。
10、对于英伟达来说,这很可怕。他们的整个商业模式都建立在销售利润率高达90%的超级昂贵 GPU 的基础上,如果每个人都能突然用普通的游戏 GPU 做 AI……那么,你就知道问题所在了。
11、关键在于:DeepSeek 的团队不到 200 人,但 Meta 的团队仅薪酬就超过了 DeepSeek 的整个培训预算……而且他们的模型并不那么好。
12、这是一个经典的颠覆故事:既有者优化现有流程,而颠覆者重新思考根本方法。
13、影响巨大:人工智能开发变得更加容易;竞争急剧加剧;大型科技公司的“护城河”看起来更像水坑;硬件要求(和成本)大幅下降。