众力资讯网

对话杨红霞:从大厂到创业,她希望做出下一个OpenAI

杨红霞,是中国大模型领域一个无法绕开的名字。人们从M6模型(阿里达摩院发布的万亿参数AI大模型)开始熟知她,而她又在最近走出创业隐匿模式,正式向世界宣告自己已经是一名创业者,并希望能够做出下一个OpenAI。对于这一愿景,她是有底气的——隐身之前,已经收到国内外各个VC的橄榄枝,以至于当问起公司状态时她“有些抗拒”地说Pre-A已经Close,并直言不需要通过这次采访来拉融资,只是想纯粹分享目前可以讲的技术。

她的创业故事始于2024年加入香港理工大学之时,在获得香港政府1亿港币RAISe+资助后,便开启了分布式AI的革新之路。她发现中心化大模型的局限在于高精尖领域数据无法共享,于是开启了生成式AI的创新之路:在各机构本地训练专业小模型,再通过专业小模型融合实现通用人工智能(AGI,ArtificialGeneralIntelligence)。

这项技术目前已展现出惊人潜力:在癌症诊断领域,杨红霞团队的30亿参数模型以更小规模超越谷歌40亿参数模型性能8个百分点;在多模态推理任务上,模型执行成功率接近60%,远超GPT-4的0.8%。更具突破性的是,她的公司成为全球首个全开源FP8低比特预训练-监督微调-强化学习全流程训练的企业,将FP8端到端训练速度最高提升43.3%,显存峰值节省最高24%

三篇NeurIPS顶会论文、18个基准测试75-77分的优异成绩,见证着这条技术路径的可行性。正如杨红霞所言:“当技术形成断崖式领先,商业化便是水到渠成。”这位科学家正用实践证明,协作式生成式AI将是打破“富人游戏”、实现技术普惠的关键密钥。

关于创业:入职香港理工大学之日,便是启动创业之日

DeepTech:为何决定创业?看到了什么需求和机会?

杨红霞:我在2024年7月加入香港理工大学,目前是计算机与数学科学学院的副院长(环球事务),也是AI高等研究院的执行院长。香港这边非常鼓励教授创业,并设有一个名为RAISe+的资金资助项目,像商汤、大疆都是从香港高校孵化出来的。这个项目由港府出资100亿港币资助100位高校教授来创业,每个项目会得到大约1亿港币的支持,同时项目发起方不会占据任何股份。我的公司在2025年也得到了项目支持。在加入香港理工大学之前,我在工业界大约工作15年左右,此前曾搭建阿里巴巴和字节跳动的基础模型团队。事实上,自从于2024年7月加入香港理工大学以来我就在着手创业。天使轮开始于2024年11月,到2025年3月份才全部Close,主要因为一些国际VC机构在走流程上需要时间。

要想理解我的创业项目,首先得从OpenAI的ChatGPT说起,类似于ChatGPT的模型都是中心化的模型,即把所有的数据和算力放在一个地方。这类模型在某些垂直应用场景会遇到瓶颈,比如要想打造一个针对全中国的癌症通用大模型,如果仍然使用中心化方式,就得让所有医院将数据放在一个地方。这不仅工作量十分巨大,而且医院基于隐私考虑根本不可能分享数据。

如果不是研发所谓的AGI,就根本不需要几万亿参数的大模型。在医学这样足够垂直的领域,一个小模型足以完全击败大模型。我自从2024年开始便开始研发中心化模型。去中心化模型的好处在于,能在每家医院以本地方式训练小模型,然后通过模型融合技术去融合所有医院的小模型,最终得到一个新的基座模型。

中心化模型的范式在于通过使用海量的算力和大量的时间去学习原始数据。这种范式能将文本知识分为上万个类别,并能在每个领域都打造出一个小模型,这个过程就像是在培养一名顶尖“专才”。每个小模型就像一个领域的专家,能够很好地代表该领域所有的知识和数据。当其他模型需要学习的时候,可以直接请教这位专家,从而能够极大提高效率。

今天只有大厂才能玩得起大模型,所以这依然是一个“富人游戏”,同时目前很少有大厂研发去中心化大模型,大厂工程师们依然是在做数据和应用。而今天大家看到的所有和大模型相关的突破,都和写代码、做数学题和日常生活相关,截至目前并没有任何一个高精尖领域的突破。核心原因在于这些高精尖领域的数据,根本无法像代码或者数学题那样能够从互联网上获取。假如你调用一个类似于ChatGPT的中心化模型,由于高精尖领域的数据和知识不在这个模型里面,因此很难获得较好的结果,进而就会出现人们常说的幻觉。

我个人非常看好去中心化大模型。由OpenAI原CTO米拉·穆拉提(MiraMurati)创办的ThinkingMachineLab已经估值120亿美金,由Transformer八子之一创办的日本SakanaAI公司也已估值20亿美金,他们都是在研发去中心化大模型,而这个方向一定是AI发展的趋势,也是让各行各业都能用上AI的必经之路。计算机刚面世的时候只有IBM的大型机,直到今天大型机依然非常流行,比如美国很多军事机构和银行机构的数据依然存储在大型机中。但是我们今天人人都在使用的手机其实就是一个去中心化的小型计算机,我们在手机上的操作本质上就是在编程,只不过不用我们亲自写代码。

DeepTech:目前公司筹备到怎样的程度?

杨红霞:我们和很多要靠技术故事融资的初创公司不一样,我们不太需要这样做。我们在2025年3、4月份就完成了天使轮,投资方都是国内外的知名机构。半个月前,我们的Pre-A轮也已Close,目前公司估值小几亿美元左右。投资人了解到我们的想法之后,份额很快就超募。所以我们目前真的不缺融资,这次接受采访就是单纯为了交流,不是为融资造势。

图|杨红霞参加《麻省理工科技评论》主办的“青年科技论坛”

DeepTech:相比于美国的ThinkingMachineLab和日本的SakanaAI,你的公司有哪些独一无二的特点?

杨红霞:相比他们我们已经取得非常大的进展。

第一,在本地化部署小模型肯定要进行训练。今天的大模型主要有预训练和后训练。但是,知识注入主要发生在预训练阶段,如果想在本地化部署小模型,就必须启动预训练。此前,全球只有OpenAI和DeepSeek做到FP8全流程预训练和后训练,而我们是第三家做到的公司并进行了全开源。OpenAI的所有大模型都采用FP8,其他大厂主要采用BF16。前阵子寒武纪说要做FP8,股价一下子飙升得特别厉害,因为这是所有做大模型的人普遍看到的软硬协同发展的必然趋势。把推理做成低比特并不难,难度主要体现在训练阶段。在算子精度上如果每一个参数都是FP8存储,那就意味着能在训练过程中节省将近一半的算力和存储,同时还能通过我们的训练方案得到和BF16一样好的模型。

第二,对于ThinkingMachineLab和SakanaAI来说,它们都处在探索初期。尤其是ThinkingMachineLab还处于搭建公司的状态,目前只有20来人左右。从它们的技术报告来看它们主要还在探讨ModelMerging。ModelMerging与ModelFusion之间的区别在于:ModelMerging指的是被融合进来的领域模型其模型骨干网络必须是同结构的,比如都是基于LLaMA3的同一架构得到的;而ModelFusion则指被融合进来的领域模型其模型骨干网络可以是不同结构。这两方面我们目前都在推进,并且我们证明了一个重要结论:在Modelmerging的过程中,ScalingLaw(缩放定律)依然存在。

在低比特大模型方面,我们在开源模型LLaMA3.2和Qwen2.5的基础上进行了创新,同时我们专注于推理能力这一核心指标。我们所构建的10亿参数模型在性能雷达图上全面超越了同尺寸的LLaMA,并且逼近规模大出50%的Qwen模型,在数学解题等特定维度上甚至表现更优。在多模态领域,我们选择了比较难的手机操作系统交互场景,将订机票的任务抽象为多图像多模态大模型推理问题。在这个GPT-4的成功率仅有0.8%的高难度任务上,我们30亿和70亿参数模型的执行成功率均接近60%,成为同尺寸模型中的全球最佳。在技术框架层面,我们验证了低比特训练的巨大价值:我们将端到端训练速度最高提升43.3%,显存峰值最高节省24%,这与OpenAI和DeepSeek的技术路线不谋而合。

同时,我们在模型融合方面也有重大进展。现实中,往往需要处理不同结构的模型融合,而这正是我们相较于ThinkingMachineLab和SakanaAI等团队的优势所在。如果要做模型融合,模型参数就一定要开源。在150亿参数到250亿参数范围内,我们从18个在benchmark上有着最佳推理效果的模型中选了4个。如果从头开始融合,至少需要100万到200万个GPU时,但是经过我们公司的融合只需要几百个GPU时。

我们的模型融合技术演进分为三个阶段,对应的三篇论文均被2025年的NeurIPS会议收录。这三个阶段分别是:在第一阶段,初始版本采用标准的对数损失函数进行词汇对齐,该版本只需利用简单的融合策略,得分便能达到79分,略优于基线。在第二阶段,我们发现由于推理任务本身较为复杂,需要在2025年2月的版本上进行改进。因此,我们在5月引入了图基损失函数,在全局语义层面的对齐上实现了更加精准的对齐,成功将得分提升到81-82分。在第三阶段,我们集成了强化学习来优化泛化能力,大约两个月前这一版本的得分达到84分,而我们的最新成果已能将性能提至88分。

简单来说,我们只使用几百个GPU小时,就把当前领域里最强的四个模型融合在一起。这几个模型各有绝活——有的搞代码特别在行,有的特别会解数学题,还有的擅长文本逻辑推理。而一旦融合成功,新模型在所有方面都能变得特别强。

我们还开展了“模型融合缩放定律”的研究。缩放定律大家肯定都听过,但我们最开始接触它通常是在预训练阶段。而我们现在研究的是模型融合的规律,其中的一个重要前提是数据必须高质量。只要满足这一点,只需不断地增加数据、算力和模型规模,模型性能就会一路涨上去。业内人士都觉得这事特别令人激动,因为理论上只要在这三个方向上持续投入,总有一天会触及AGI。而我们的研究同样证明:这个规律也存在于模型融合之中,即只要持续扩大高质量数据的规模、模型的个数和模型的尺寸,模型能力就会同步增强。我们目前正在做的去中心化AI,旨在解决大模型落地“最后一公里”的问题,因此它很有可能也是一条可以通向AGI的路。顺便说下,这项工作的相关论文已经投稿到2025年的ICLR会议。

在应用上,我们目前主要做癌症诊断和论文写作。当前,业界做得最好的癌症模型是谷歌的MedGemma,它是一个40亿参数的模型。我们的模型只有30亿参数,规模要比它小三分之一,但性能反而比它高8%。关于这部分工作我们也已把论文投到2025年的ICLR会议。眼下,大模型的天花板是GPT-5,它能做到70%的癌症诊断准确率。OpenAI一直非常重视医疗,所以GPT-5是吞下海量医疗数据之后训练出来的。我们现在正在收尾一个70亿参数的模型,虽然尚未最终发布,但得到的结果已和GPT-5非常接近。

我们现在正在推动一些临床实验。合作方包括于金明院士所在的山东省肿瘤医院,这是全国最好的放疗中心;我们也在跟复旦大学附属华山医院感染科主任张文宏老师合作,他特别关注老龄化这一方向;我们也在和马骏院士所在的中山大学肿瘤医院合作,这家医院的鼻咽喉科闻名全国;香港最大的公立医院伊丽莎白医院也是我们的合作伙伴。我们正在和他们推进临床验证,最终希望打造一个端到端的癌症诊断大模型,并能实现落地应用。

以肿瘤放化疗的“靶区勾画”为例,这是确定照射范围与剂量的关键环节,但至今没有可以商用的自动化产品,难点主要在于技术复杂与医院数据难以流通。我们与多家医院联合使用多模态技术推进临床验证与落地,目前模型已能将单例处理时长由30–50分钟降至10–20分钟。我们的路线是打造“小而强”的专业模型。美国Abridge走的则是产品路线,直接调用Anthropic的大模型做电子病历自动生成,目前该公司估值大约50亿美元。但是,Abridge的方案依赖云端模型,隐私无法得到保障。我们则是使用更强的小模型在每台移动设备本地生成病历,数据不外传、隐私可控;规模化时也无需汇集医生数据,每台设备上的模型各自持续学习,最后再做模型融合,从而得到更强的专用电子病历模型。

论文写作智能体,其实是所有智能体应用里最大的挑战之一。搞定一篇高水平论文本身就非常难,包括想题目、看文献、定义问题、写代码做实验、最后还要做对比,每一步都不简单。我们也设计了一整套智能体流程,从支持任务复杂度、泛化能力和生成报告质量这些方面来看,我们的结果能够媲美OpenAI和谷歌的结果。

目前,我们的大部分成果都已在HuggingFace和GitHub开源,代码都是公开的,大家都可以去复现。

DeepTech:医生群体和科研人员群体,是两个主要的用户对象?

杨红霞:我们一开始就瞄准了医疗市场,而且不是泛泛地做,是直接挑了最难啃的骨头——癌症。选癌症是因为它的数据特别杂,分子、穿刺、血液、医学影像全都涉及,而且整个诊断过程也非常复杂。具体商业化细节目前还不太方便细说。实际上我们就是提供一个方案,让广大中小商家、医生、医院和政府机构,都能用很低的成本——就像刚才提到的FP8和软硬件结合的技术——获得他们自己领域里好用的专业模型。

DeepTech:目前能够针对某一种还是某几种癌症做检测?

杨红霞:我们目前主要聚焦于鼻咽癌和胃炎等特定疾病。至于不同癌种间技术迁移的可行性,我们还没进行严格的科学验证。我们方法的泛化能力很强,不必局限于特定病症。但在落地策略上,我们依然会采取逐个癌种突破的路径。具体选择优先攻克哪个癌种,关键在于合作医院在哪类癌症上拥有更丰富的数据。例如,南方地区鼻咽癌高发,相关数据更集中;而山肿所在的北方地区,可能在胃肠癌、肺癌等方面数据储备更充足。因此,数据可得性是我们决策的核心依据。

DeepTech:医生怎么使用你们的产品?需要硬件吗?

杨红霞:不需要硬件。像靶区勾画这个功能,它本身就是个软件,我们会直接集成到医院自己的系统里。

DeepTech:模型是能通过学习医生问诊的过程来积累数据吗?

杨红霞:我们是这么做的:先把整个癌症流程和医生一起拆成几个阶段,比如诊前、诊后、愈后。关于每个阶段,医生之前都存有大量病人数据,比如检查结果、诊断记录和治疗方案等。我们的系统就是把这些所有信息、连同病情发展历程都拿去一起学习,等于使用了多智能体的思路。由于任务过于复杂,因此我们把它拆成好几块,每一块都有一个专用模型来负责,最后再拼起来完成整个大任务。比如,靶区勾画就是放疗前的那一步。我们真正想打造的是一个能从头管到尾的、全链路的癌症模型。

这当然并非易事,但我觉得前景很好,因为这几家医院在AI和数据上的底子非常好。以中山肿瘤医院为例,之前帮这家医院做大数据起家的医渡云公司已经上市,这就是最好的证明。而在上述不同步骤里,如果某些现有模型效果不错,就可以直接打包成工具让智能体去调用;效果不好的模型,就用更好的大模型换掉它。最终它就是一个由智能体串起来的、能管诊断也能管康复的全链路系统。理想情况下,医生所需要做的每一步,我们的模型都能辅助完成。但它永远只是医生的帮手,不会去取代医生,因为最后的决定必须由医生来拍板。

DeepTech:面向医生群体和面向科研人员群体,是做了两个不同的模型吗?

杨红霞:对,肯定是。训练领域模型就和培养专家一样。医疗领域的模型一般分为几个级别:L0是指最底层的通用大模型,就跟人们上学一样L0通用模型就像读本科学的是通用知识;L1是能够进行持续预训练的模型,这类模型在学习知识时主要依靠预训练,不是靠后面的后训练,即依托海量的通用医疗数据和教科书知识,通过持续预训练往模型里灌。对标培养医生的话,就好比让他完成八年制博士的所有课程学习;L2模型要做指令微调和强化学习,这属于后期训练的范畴,主要是给模型灌规则,对标培养医生的话就是去进行临床实习,要不断接受正反馈和负反馈;L3是基于提示词的阶段,因为模型已经掌握知识和规则,并非所有事都得重新训练一遍,就好比医生完成实习后正式到某个科室定科工作,这时你直接下指令模型就能给出结果。因此,训练一个领域大模型,和培养一名专家的路径完全一样。而要改做深度科研的时候,L0仍是通用的基础模型;L1就要给它“喂”大量论文,让它成为该领域的专家;L2和L3也是进行微调和提示工程。

DeepTech:写论文比较难以实现,怎么让它变得容易实现?

杨红霞:论文写作确实比较难以实现,但是我们不光知道怎么干,而且已经把东西做出来了。最好的证明就是我们用这套方法产出的论文,已经在一些顶级会议上发表。现在这些基础大模型,你让它自己规划一个复杂任务是不太行的,所以直接让GPT-4这类模型去干一件复杂事儿它往往干不好。而智能体干的事,就是把任何复杂任务都自动拆成一步一步的。在每一步不管你用什么方式调模型,最后这整个系统其实就是多个智能体在一起协作。如前所述,我们通过持续训练已经把各领域的海量论文“喂”给模型。但是,我需要强调一下,这不是要替代学生,学生最后还是得跟它进行很多互动才能完成论文撰写。

DeepTech:学术界在呼吁尽量不要用AI写论文,在做这个方向的时候有考虑过这些顾虑吗?

杨红霞:像DeepResearch这种工具,谷歌、Anthropic和OpenAI他们都盯得挺紧。但得再说一次,这不是替人写论文,是给人帮忙的。而且像爱思唯尔这种期刊都规定AI写的内容不能超过25%。我们的工具跟DeepResearch基本一样。我觉得它最能帮学生的地方是激发写作灵感——比如很多学生只有个大概想法,不知道具体该怎么收窄到一个题目上,这时工具就能派上用场。要是放以前,你得去找老师聊,但老师不可能天天泡在实验室陪着学生。而有的学生尽管已经读了不少文献,但是思路依旧不太清晰,要么就是漏了一些重要文献。这时跟我们的模型聊一聊,就能帮你把这些给补上,从而帮助他们写出更好的论文。毕竟读博的时候导师不可能随时盯着你,尤其是刚开始的博士生有这么一个工具,他们就能更容易上手。

DeepTech:做企业和做老师做高管不太一样,有哪些需要快速补足的非技术能力吗?

杨红霞:其实我觉得在学校、在公司、和在初创团队没啥本质区别,就是找到一帮理念特别合、能力特别牛的人,一起干一件有挑战的事。我们现在的心思全在技术上,我一直跟同事说,咱们要成为OpenAI那样的公司。OpenAI于2015年成立,直到2022年10月之前压根没管商业化,就是纯粹搞技术。虽然困难很多,但是这帮人特别坚定。当你的技术做到别人完全追不上的时候,商业化是水到渠成的事,而我们现在就在走这条路。比如,同样是训练一个模型,同样是效果跟别人一样好,但是如果我的FP4低比特训练能成功(现在全球没人能做到FP4),那么我的训练成本就只有别人的1/4。到了那一步,商业化怎么可能不成功?

DeepTech:这个因素是你从医疗还有写论文这两个竞争非常激烈的领域中脱颖而出的主要原因吗?

杨红霞:是的。我再强调一下:我们做医疗和DeepResearch,其实就是想拿它们来验证整个技术框架,比如验证低比特训练和模型融合的落地情况,看看在大家公认的超难任务里到底表现如何。现在大模型的能力比以前的深度学习强太多,但如果只让它聊天就根本试不出真本事。像癌症全链路诊断和写论文这种极限任务,只有做得特别好才能证明你的模型是真厉害。所以我们选这两个领域,说白了就是拿出来秀一下肌肉。这其实也是我一直相信的道理:不管在大厂还是学校,只要你技术能做到断崖式领先,你的优势就是绝对的。

DeepTech:但是投资人愿意一直耐心等下去吗?

杨红霞:我觉得他们特别积极。像ThinkingMachineLab目前只有20人,刚开始说要做这个方向就融资20亿美金、估值120亿美金。我们比他们早一年就开始做这件事情,而且以极低成本迅速完成多个扎实发布。另一方面,我们这轮Pre-A根本不是自己推的,是上一轮领投的国际大VC主动发起的。现在都超了,但是还有人在不断进来。

DeepTech:听起来很激励人。那目前你又是多个角色——科学家、教授还有创始人,是怎么实现这些角色的切换的呢?

杨红霞:我的心思还是全在技术上。不管是在学校带学生,还是在公司(我虽然是创始人,但title是首席科学家),主要干的都是技术突破的事。后续商业化的事,可能会请我之前在大厂管过核心AI产品的朋友来搞定。我自己还是想学OpenAI,在前七八年里只埋头搞技术。我知道这很难,但现在我们就是一门心思把技术做到比别人强一大截。我也已经说服了投资人们,只要技术有代差,商业上就一定行得通,所以他们现在都很有耐心。我们进展其实挺快的,从2025年7月中旬就我一个人,到现在快40人了,一边招人一边培养,还能拿出这么多成果,大家还是挺满意的。

DeepTech:目前公司有40多人,这是公司团队加学术团队的总人数吗?

杨红霞:是的,所有的加起来。

DeepTech:所以是人才复用的?

杨红霞:我们做的就是分布式生成式AI。这个领域太新了,在学术界也是前沿,根本没得抄。你看像ThinkingMachine也是刚开始做。我们的论文能在NeurIPS拿最高分被接收,说明技术上是块硬骨头,必须靠团队自己不断往前突破。

关于行业洞见:不是ScalingLaw没了,是互联网数据已快被挖没

DeepTech:ScalingLaw的边际效应是已经到头了吗?

杨红霞:原来的缩放定律是说预训练,后来大家不怎么提了,不是因为定律没了,是互联网上的数据基本快被挖得完。但其实,现在的线下数据非常多,比如我们合作的医院,单单一家医院就有几个PB的数据(1PB=1000个TB)。所以只要把这些数据用上,缩放定律照样成立。因此,还是得在数据、算力、参数这三样东西上继续做高质量的增加。

DeepTech:当前AI的训练成本和推理成本都比较高,这会成为AI普惠的一个障碍吗?

杨红霞:所以低比特肯定是未来。FP8就是个例子:等模型训好了再去做量化(现在很多框架都这么干),精度转化带来的误差会严重损伤它的推理能力。但如果你从预训练开始就用低比特,后面根本不用再做任何处理,自然就保留了所有能力。再加上它能大幅削减训练成本,而训练才是吃算力的大头,所以低比特一定是未来。

DeepTech:关于开源闭源很多人都在讨论。会更认可开源吗?

杨红霞:我当然认同开源。你看低比特这件事,OpenAI和DeepSeek做出来了,但他们没开源,所以现在做大模型还是有点像“有钱人的游戏”。我们把整个训练框架都进行开源,就是希望它能变得更加普惠。而像低比特训练、分布式AI这些新方向,你想让社区真正把这个方向的火点起来,一开始就得彻底开源。

DeepTech:那现在足以去判断将来AI的主流是开源还是闭源吗?

杨红霞:我觉得每个人的选择不一样,反正我个人觉得开源挺重要。开源能够天然地带来更为广泛的传播度,也能让更多人参与到生态共建中。比如,正是开源让操作系统得到了更广泛的应用。

关于个人成长:年轻时战胜的重大挑战,会内化为“一定能搞定”的信心

DeepTech:成长的过程中有没有哪个人对自己影响比较大?

杨红霞:有许多人影响了我,其中我的博士生导师——COPSS奖(统计学界的诺贝尔奖)得主DavidDunson教授尤为关键。他是数学、统计和机器学习三个系的教授,我是他的第一个博士生。这段经历极具挑战。他极其聪明又要求严苛,而我当时仅是刚毕业的本科生,毫无论文写作经验,因此初期压力巨大,甚至每周都害怕与他见面。尽管他不断地提出挑战,却也给予了最到位的指导。在那三年里,我经常需要夜里12点休息设闹钟凌晨4点起来编程,过程虽不轻松,但我最终仅用三年便博士毕业,创造了杜克大学直博的最快记录。这段经历给我的人生留下了深刻的烙印,它让我深信人生没有过不去的坎。年轻时战胜的重大挑战,会内化为一种“一定能搞定”的信心,这种信心无比珍贵。

DeepTech:从工业界到高校再到创业,一路走来心态上有什么变化吗?

杨红霞:没啥太大变化,重心都是在做技术本身。当然,从大厂出来到学校创业,团队要从零开始搭。但我之前无论在哪儿都是从零干起的,都经历过从零到一的过程。比如我以前做推荐系统,后来转做大模型,团队也是重新建的。

DeepTech:跨界期间有遇到过一些困难吗?

杨红霞:困难嘛,总是啥样的都有。但我觉得,最重要的是保持对技术的纯粹的追求,这才是能够不断突破的原因。反正兵来将挡、水来土掩,干就完了。只要我们真心相信现在搞的技术能成大事,那每一点滴技术上的进步,都会让人觉得特别开心。

DeepTech:有没有因为学术界相对的慢,给你了一些思考空间或者科研灵感?

杨红霞:实话讲,我们真没有。我们整个节奏其实很像互联网公司,包括对我的学生也是这样。我当时就跟他们说,你要想来读博,最好先来我这实习一下,你来感受一下这个节奏,看看适不适应。所以不要觉得我现在比在大厂轻松,不是这样的。

DeepTech:所以现在带博士生和以前在大厂带工程师没有太大区别是吗?

杨红霞:对,就是一心做最顶尖的技术。计算机和AI领域的研究本身就需要和业界紧密结合,我现在香港理工大学教了一门大模型的博士生课程,每次报名比如80个人的课,后面的候补名单都快100人了。

DeepTech:新一代的00后的学生,有什么让你印象深刻的特质吗?

杨红霞:我选人标准主要有三个。第一是代码能力必须非常强,我设置了一个很严格的代码测试作为门槛。第二是候选人可以没有大模型背景,但必须有足够的好奇心。我本人就是从数学、统计转到机器学习,再到深度学习和大模型的,因此好奇心至关重要。第三是必须拥有强大的合作意识,因为做大模型需要集团军作战。对于00后的年轻学生,他们与我们这一代人的成长背景固然不同,但关键在于能否激发他们的兴趣和认同感。一旦他们找到自我价值,就会非常投入和吃苦耐劳,本质上和大家并没有区别。

DeepTech:你通过哪些方式确保自己始终站在知识和趋势的前沿位置?

杨红霞:第一,你一定要找一帮特别牛的小伙伴一起干。他们会自己不断往前冲,带着你一起迭代。和最优秀的人工作,成长速度肯定飞快。第二,因为我们做大模型特别早,而且做得还不错,现在中美各大厂包括OpenAI、字节、阿里这些,都有我以前的队员或者朋友,我们经常会进行交流。

DeepTech:高强度的工作和个人的生活休闲是如何平衡的?

杨红霞:实话跟你说,因为我现在跟你聊天就没办法去看我小孩。不过好在有我爸妈一直帮我带着。我在香港,这边有个好处——全球不是只有六家迪士尼嘛,中国就上海和香港有迪士尼。我的小孩才三岁多,我们在周末经常抽一天带他去迪士尼,我自己也放松一下,我觉得挺不错的。

运营/排版:何晨龙