众力资讯网

硅谷有两个姚顺宇(雨),而且轨迹极为相似硅谷 AI 圈一个长期存在的”命名事故”

硅谷有两个姚顺宇(雨),而且轨迹极为相似

硅谷 AI 圈一个长期存在的”命名事故”:两个中国人,都叫 Yao Shunyu,清华同届,都在顶级实验室。一个去了 OpenAI,后来到腾讯当首席 AI 科学家;另一个从 Anthropic 跳去 Google DeepMind,参与了 Claude 3.7、Claude 4.5 和 Gemini 3 的训练。

前者名字是姚顺雨,后者是姚顺宇。

最近小宇宙上有一期对姚顺宇的四小时访谈,播放量已经快 10 万,评论 383 条,是今年技术播客里讨论最密集的一期之一。评论区第一条点赞 218,说的是:

“这个 shunyu 还蛮可爱的,有一种没有被社会毒打过的真,年轻人说话就是比老登有意思哈哈哈”这期节目好听,不是因为嘉宾透了什么内幕,而是他说了很多”说了也无所谓”的真话。我把其中三个判断拎出来,每一个都和我们通常的预设反着来。如果你更关心”两个姚顺宇”本身,上面这段就是全貌;下面聊的是从访谈里读出的、和职业选择有关的东西。

英雄主义死了,但媒体还在给它烧纸2024 年 5 月,Ilya Sutskever 离开了 OpenAI。

他是那个时代最接近”AI 英雄”的人——GPT 系列的核心推手,Scaling Law 的早期信徒,OpenAI 最具公信力的技术象征。离开后他创立了 Safe Superintelligence Inc.,融资 30 亿美元,估值 320 亿,外界的解读是”天才出走另起炉灶”。

一年多过去了,SSI 没有发布任何产品,也没有可以核实的技术进展。AI 社区里开始有人说,一个研究组织能调动的算力和资金,早就远超任何个人能争取到的了。SSI 虽然估值高,但算力储备大概率还是比不上 Anthropic 或 DeepMind 给 Ilya 用过的那套基础设施。这就是英雄走出去之后的处境:他还是他,但浪不在了。

更讽刺的是,Ilya 自己在 2025 年 11 月接受 Dwarkesh Patel 采访时,宣告了”scaling 时代的终结”。他说 2020 到 2025 年是”scaling 的时代”,数据和算力是主角,那个章节正在关闭,接下来又回到了”ideas 的时代”。曾经的英雄,亲口宣告了英雄时代的终结。

姚顺宇的版本更直接:”AI 个人英雄主义时代已经过去了,所以也没有什么英雄,有时候甚至觉得旧时代英雄有点蠢。”

他不是在骂前人。2017 年 Transformer 论文有 8 位作者;GPT-3 的论文有 31 位作者;Claude 3.7 是整个叫 Horizon 的大团队共同完成的。作者列表就是一部缩写的历史,从个人,到小组,到整个公司押注。

媒体需要英雄叙事,因为”一个天才改变世界”比”三百个工程师一起调 loss 曲线”好讲得多。但对身处其中的人来说,这套叙事早已不再适用。对你我这种圈外人来说,别把新闻里的”主角”当真,省得选赛道时误判自己的杠杆在哪。

一个物理学家为什么要逃出高能物理Anthropic 联合创始人、现任首席科学官 Jared Kaplan,是约翰斯·霍普金斯的理论物理教授。Scaling Law 那篇改变 AI 行业走向的论文,第一作者就是他。另一位联合创始人 Sam McCandlish,同样物理背景。姚顺宇本人,斯坦福高能物理博士。

为什么一家 AI 公司的核心技术圈聚集了这么多搞理论物理的人?

姚顺宇说不是因为硬技能迁移,”从物理到 AI 的技术转化,是非常非常少的。”他提到的是一种思维习惯,刨根问底,做事系统。但我觉得他在另一段话里说了一个更底层的东西:

物理学家被训练出来的能力,是在没有完备理论的情况下先建立经验定律。Scaling Law 就是这样一个东西。没人完全理解语言模型内部发生了什么,就像 19 世纪的工程师不理解热的微观本质,但他们总结出了热力学定律,然后建了蒸汽机。姚顺宇管这叫”18 世纪的物理学”——那个时代理论和实验不分家,搞物理的人自己做实验,自己做理论推测,AI 就有点像那个时代。

问题是,这套能力在高能理论里完全用不上。高能理论已经发展到实验追不上的地方,弦论对不对可能几十年都验不了,评价标准变成了”领域老登的主观判断”。

姚顺宇在博士阶段就意识到这件事有多荒谬:

“人这一辈子也没多长,为什么要把自己的时间浪费在伺候老登身上?”没有客观评价标准的地方,权威就是权力,不是真理。他要找的是”回归信号足够清晰”的领域。代码能不能运行,明确的;模型 benchmark 能不能提升,明确的。

评论区里有条 27 赞的留言,延伸得很到位:”实践是检验真理的唯一标准,有点理解 yao 对业内老登的评价,无法检验的理论不一定错,所以被老登认为是异端的也不一定错;哲学、宗教领域类似,无法被证伪的领域的正确性靠信仰、老登、权力决定。”

这段话对我这种读论文比写代码多的人其实很扎:换工作或换研究方向时,先问自己一句:这件事有没有你能信得过的、来自外界的反馈闭环。

“AI 不需要脑子”——这话得从头说这是整个访谈里我看完之后重新读了一遍的段落:

“AI 这个事,本来也不太需要脑子——真的不太需要脑子——我觉得都是一些本科生就能干的活。这个行业最重要的特质,就是靠谱,就是做事细,对自己做的事情负责任。”第一反应是:这是在凡尔赛吗?

其实吧,他在说的是一个当你到了那个环境里就会明白的东西:当一个行业里聚集了足够多聪明人之后,智力就不再是稀缺要素了,稀缺的是执行力。大模型训练是系统工程,代码有 bug 不是因为没人聪明,是因为没人仔细;实验跑不起来,不是算法有问题,是某个 config 写错了;一个复杂的 RL pipeline 崩溃,往往是某个细节没人盯住。

他在描述 Anthropic 工作方式时有一个词反复出现:”干净”。”把简单的事儿做得比谁都干净,是最关键的。”

什么叫干净,说白了就是:你不选最花哨的算法,你选最稳定的;做 trade-off 的时候,不追最优解,追的是在各种异常情况下都不出错的解。AI 行业充斥着对复杂性的崇拜,更大的模型、更新的架构、更精妙的训练技巧。实际工程里,复杂性本身就是风险。这是一种反潮流的判断,而且他是在训过 Claude 3.7 和 Gemini 3 之后说的,不是在纸上说的。

有一个对照放在这里很有意思:Ilya 离开 OpenAI 之后说,下一代 AI 的突破需要新的概念性突破,要去寻找人类学习的本质。姚顺宇坐在另一个维度上说:在找到那个突破之前,先把现在的东西做扎实。这两个判断不矛盾,但在过去两年,是工程赢了。正在找工作的应届生别被”PPT 英雄”吓到,真正把项目跑通关的人反而少。

尾声访谈里有一句话我反复想:”现在大家都是冲浪的人,本质上是那个浪,而不是你那个冲浪的人。”

乍听像是谦虚,但意思更复杂一点。他不是在说个人不重要,而是在说:如果认不清自己和那个浪的关系,就会把浪的力量当成自己的力量,浪退的时候不知道发生了什么。

这种事在 AI 行业不少见。有人在大模型浪潮里赚了名声,以为是自己厉害;有人追着每一阵小浪跑,精疲力竭却从没在一个浪上待够长。

姚顺宇自己的做法是:找一个有客观评价标准的领域,找到最大的那个浪,然后把自己做成一个靠谱的冲浪者。

一个物理学家在高能理论和大模型训练里学到的,是同一件事:在你还不理解微观机制的时候,先找到稳健的经验定律,把它做到极致。

你在那个浪上,感受是什么样的,评论区说说。