nature网站上,也发了篇介绍科学家们是如何使用DeepSeek的文章:“Scientists flock to DeepSeek: how they’re using the blockbuster AI model”:
科学家们正蜂拥而至 DeepSeek-R1,这是一款由一家中国公司上周发布后导致美国股市暴跌的廉价且强大的人工智能(AI)“推理”模型。
反复测试表明,DeepSeek-R1 解决数学和科学问题的能力与加利福尼亚州旧金山的 OpenAI 公司于 9 月发布的 o1 模型相当,后者的推理模型被认为是行业领导者。
尽管 R1 在研究人员可能希望它执行的许多任务上仍然失败,但它为全球科学家提供了训练旨在解决其学科问题的自定义推理模型的机会。
“基于其出色的性能和低成本,我们相信 Deepseek-R1 将鼓励更多科学家在日常研究中尝试 LLM,而无需担心成本,”俄亥俄州立大学哥伦布分校的 AI 研究员 Huan Sun 说。“几乎所有从事 AI 工作的同事和合作者都在谈论它。”
对于研究人员来说,R1 的廉价和开放性可能会改变游戏规则:使用其应用程序编程接口 (API),他们可以以专有竞争对手的一小部分成本查询该模型,或者通过使用其在线聊天机器人 DeepThink 免费查询。他们还可以将模型下载到自己的服务器上并免费运行和构建它——这对于 o1 等竞争性封闭模型来说是不可能的。
不列颠哥伦比亚省温哥华分校的 AI 研究员 Cong Lu 说,自 1 月 20 日 R1 发布以来,“大量研究人员”一直在调查训练他们自己的基于 R1 并受其启发的推理模型。托管 DeepSeek-R1 代码的 AI 开放科学存储库 Hugging Face 的数据支持了这一点。自发布以来的那一周,该网站记录了超过 300 万次不同版本 R1 的下载,包括独立用户已经构建的版本。
Sun 说,在对 R1 在数据驱动的科学任务(取自生物信息学、计算化学和认知神经科学等主题的真实论文)上的能力的初步测试中,该模型与 o1 的性能相匹配。她的团队挑战这两个 AI 模型完成他们创建的一套问题中的 20 个任务,称为 ScienceAgentBench。其中包括分析和可视化数据等任务。这两个模型都只正确解决了大约三分之一的挑战。Sun 指出,使用 API 运行 R1 的成本比 o1 低 13 倍,但它的“思考”时间比 o1 慢。
R1 在数学方面也显示出前景。英国牛津大学的数学家和计算机科学家 Frieder Simon 向这两个模型发起挑战,要求它们在泛函分析的抽象领域创建一个证明,并发现 R1 的论证比 o1 更具希望。但鉴于此类模型会犯错,他说,为了从中受益,研究人员需要已经掌握诸如区分好证明和坏证明之类的技能。
对 R1 的大部分兴奋是因为它已被发布为“开放权重”,这意味着其算法不同部分之间的学习连接可以被构建。下载 R1 或 DeepSeek 也发布的更小的“精简”版本之一的科学家,可以通过额外的训练(称为微调)提高其在他们领域的性能。Sun 说,给定合适的数据集,研究人员可以训练该模型以改进特定于科学过程的编码任务。