【为什么 AI 领域的每个人都对 DeepSeek 着迷】
(VentureBeat)就在几天前,只有最书呆子的书呆子(我就是其中之一)才听说过DeepSeek ,它是名字同样引人入胜的High-Flyer Capital Management的中国 AI 子公司,High-Flyer Capital Management 是一家量化分析(或量化)公司,最初于 2015 年成立。
然而,在过去的几天里,它可以说是硅谷讨论最多的公司。这在很大程度上要归功于DeepSeek-R1 的发布,这是一种新的大型语言模型 (LLM),其执行的“推理”类似于 OpenAI 目前最佳可用模型 o1——需要几秒钟或几分钟来回答难题并解决复杂问题,因为它会逐步或“思路链”地反思自己的分析。
不仅如此,DeepSeek-R1 在各种第三方基准测试(衡量 AI 在回答各种主题问题时的表现的测试)上的得分与 OpenAI 的 o1 一样高甚至更高,而且据报道其训练成本仅为 OpenAI 的 o1 的一小部分(据报道约为 500 万美元),使用的图形处理单元(GPU)也少得多,而美国是 OpenAI 的主场,因此对其实施了严格的禁运。
但与仅向 Plus 层(每月 20 美元)和更昂贵层(例如每月 200 美元的 Pro)付费 ChatGPT 用户提供的 o1 不同,DeepSeek-R1 是作为完全开源模型发布的,这也解释了为什么它迅速成为 AI 代码共享社区 Hugging Face 下载次数最多和最活跃的模型排行榜上的佼佼者。
此外,由于它是完全开源的,人们已经针对不同的任务特定目的对该模型的许多变体进行了微调和训练,例如使其足够小以在移动设备上运行,或将其与其他开源模型相结合。即使您想将其用于开发目的,DeepSeek 的 API 成本也比 OpenAI 的等效 o1 模型低 90% 以上。
最令人印象深刻的是,你甚至不需要成为一名软件工程师就可以使用它:DeepSeek 有一个免费网站和移动应用程序,甚至对美国用户开放,其 R1 驱动的聊天机器人界面与 OpenAI 的 ChatGPT 非常相似。只不过,DeepSeek 再次削弱或“超越”了 OpenAI,将这种强大的推理模型连接到网络搜索——这是 OpenAI 尚未做到的(目前,网络搜索仅适用于功能较弱的 GPT 系列模型)。
——明显的讽刺
OpenAI 的初衷是让人工智能普及大众,而这则消息的出现,既有令人愉悦的,也有令人不安的讽刺。正如Nvidia 高级研究经理 Jim Fan 在 X 上所说:“我们生活在这样一个时代,一家非美国公司正在延续 OpenAI 的初衷——真正开放、前沿的研究,赋予所有人力量。这毫无意义。最有趣的结果最有可能。”
或者正如X 用户 所说,引用报告称DeepSeek 似乎已经接受了由 ChatGPT 生成的问答输出和其他数据的训练:“OpenAI 从整个互联网窃取数据来让自己变得更富有,DeepSeek 从他们那里窃取数据并将其免费返还给大众,我认为这与英国民间传说有关”。
——开源 Llama 落后,Meta 陷入危机?
但 Fan 并不是唯一一个关注 DeepSeek 成功的人。根据我与多位工程师、思想家和领导者的交谈和阅读,DeepSeek-R1 的开源可用性、其高性能以及它似乎“横空出世”挑战生成式人工智能前领导者的事实,已经在整个硅谷乃至更远的地方引起了震动。如果不是“每个人”都为之疯狂,正如我的夸张标题所暗示的那样,它肯定是科技界和商界热议的话题。
一则在硅谷匿名八卦分享应用Blind 上发布的消息广为流传,称 Meta 因 DeepSeek 的成功而陷入危机,因为 DeepSeek 凭借 Llama 模型迅速超越了 Meta 自身的努力,成为开源 AI 之王。
——“这改变了整个游戏规则”
X 用户tphuang 写得令人信服:“DeepSeek 已将 AI 商品化,超出了最高端的范围。第一张照片让我恍然大悟。R1 比美国劳动力成本便宜得多,未来 5 年内许多工作将实现自动化。”后来他指出了为什么 DeepSeek 的 R1 对用户来说比 OpenAI 的 o1 更具吸引力:
“o1 的 3 个大问题:
1)太慢
2)太贵
3)终端用户缺乏控制/依赖 OpenAI
R1 解决了所有问题。公司可以购买自己的 Nvidia GPU,运行这些模型。不必担心额外成本或缓慢/无响应的 OpenAI 服务器”
tphaung 还提出了一个引人注目的类比问题:“DeepSeek 之于 LLM 是否会像 Android 之于 OS 世界一样?”
网络企业家 Arnaud Bertrand 也毫不掩饰 DeepSeek 成功带来的惊人影响,他在 X 上写道:“这给整个游戏带来了多么深刻的改变,这一点毫不夸张。这不仅在人工智能方面,也是对美国试图阻止中国技术发展的错误尝试的强烈谴责,如果没有这种尝试,Deepseek 可能就不可能实现(俗话说,需要是发明之母)。”
——审查问题
然而,其他人对 DeepSeek 的快速崛起提出了警告,认为作为一家在中国境外运营的初创公司,它必然要遵守该国的法律和内容审查要求。
作为新闻界的一员,我当然非常重视言论和表达自由,这是我所倡导的最根本、无可争辩的事业之一。
然而,如果我不注意到,OpenAI 的模型和产品(包括 ChatGPT)也拒绝回答一系列关于甚至无害内容的问题,那就太失礼了——尤其是有关人类性行为和色情/成人、NSFW 主题的问题。
作为新闻界的一员,我当然非常重视言论和表达自由,这是我所倡导的最根本、无可争辩的事业之一。
然而,如果我不注意到,OpenAI 的模型和产品(包括 ChatGPT)也拒绝回答一系列关于甚至无害内容的问题,那就太失礼了——尤其是有关人类性行为和色情/成人、NSFW 主题的问题。
当然,这并不是一个同类比较。有些人会因为不愿意依赖外国技术而对 DeepSeek 的最终价值和实用性持怀疑态度。但不可否认的是,它的性能和低成本。
在全美 16.5% 的商品都从中国进口的今天,我很难因为审查问题或安全风险而警告不要使用 DeepSeek-R1 — — 尤其是当模型代码可以免费下载、离线、在安全环境中在设备上使用并随意微调时。
然而,我确实发现,一些关于“西方的没落”和“中国的崛起”的存在危机思维激发了围绕 DeepSeek 的一些热烈讨论,其他人已经将其与美国用户在 TikTok 短暂被美国禁止时加入小红书应用(又名“小红书”)联系起来,结果惊讶于那里分享的视频中描绘的中国生活质量。DeepSeek-R1 的到来发生在这样的叙事背景下——中国似乎(从许多指标来看显然)正在崛起,而美国似乎(从许多指标来看也确实)正在衰落。
——第一个震撼世界的中国人工智能模型,但绝非最后一个
这也不会是最后一个威胁硅谷巨头主导地位的中国人工智能模型——尽管这些巨头和 OpenAI 一样,为开发通用人工智能 (AGI) 的雄心筹集了比以往更多的资金,AGI 的程序在最具经济价值的工作上表现超越人类。
就在昨天,TikTok 母公司字节跳动发布的另一个中国模型——Doubao -1.5-pro——在第三方基准测试中,其性能与 OpenAI 的非推理 GPT-4o 模型相匹配,但成本同样仅为其 1/50。
中国的模型发展得如此之好、如此之快,甚至连科技行业以外的人都开始关注:《经济学人》杂志刚刚刊登了一篇关于 DeepSeek和其他中国人工智能成果的文章,政治评论员Matt Bruenig 在 X 上发帖称:“近一年来,我一直在广泛使用 Gemini、ChatGPT 和 Claude 来汇总 NLRB 文件。Deepseek 在这方面比它们都做得好。它的聊天机器人版本是免费的。使用 [其] API 的价格比 OpenAI 的 API 价格低 99.5%。[耸肩表情符号]”
——OpenAI 如何回应?
难怪 OpenAI 联合创始人兼首席执行官 Sam Altman今天表示,该公司将把尚未发布的第二个推理模型系列 o3 引入 ChatGPT,甚至为免费用户提供服务。OpenAI 似乎仍在用更多专有和先进的模型开辟自己的道路——树立行业标准。
但问题是:在 DeepSeek、字节跳动和其他中国 AI 公司紧随其后的情况下,OpenAI 在开发和发布新的尖端 AI 模型方面还能保持领先多久?如果它倒下了,它的衰落会有多严重、多快?
不过,OpenAI 确实有另一个历史先例。如果 DeepSeek 和中国的人工智能模型真的像谷歌的开源 Android 之于移动领域那样,成为法学硕士的热门话题——在一段时间内占据了最大的市场份额——你只需要看看苹果 iPhone 如何凭借其封闭、专有、全内部的方法成功占领了高端市场,并从那里稳步向下扩张,尤其是在美国,如今它已经占据了国内智能手机市场近 60% 的份额。
尽管如此,对于那些花费巨资使用领先实验室的 AI 模型的人来说,DeepSeek 表明,同样的功能可能更便宜,控制性更强。在企业环境中,这可能足以赢得比赛。
用户13xxx08
深度探索是不文明的粉碎机,也治各种不服