科学的民主化:从预测到全球数据库的建立
Cleo Abram:这对人类健康之所以意义重大,是因为在此之前,为了开发新药,我们不得不投入数十万美元并耗费数年的人力,通过 X 射线照射才能解析出单一蛋白质的结构。因此,虽然我们已经解析出了一些蛋白质结构,但过程既缓慢又昂贵。所以我在这里跳过了你和你的团队所付出的巨大努力。
但我认为通过我的提问方式,人们很明显能看出你们已经解决了这个问题。所以,当你意识到它确实有用,并且你已经解决了被称为现代医学中最重要未解难题之一的问题时,那一刻的感觉是无法言喻的。那是 2021 年,你正在参加一场会议。我非常庆幸那场会议里有摄像机记录,因为那是我见过的最不可思议的时刻之一。我见过的最不可思议的时刻。
Demis Hassabis:我们可以利用 AlphaFold 来解决这个问题吗?Cleo Abram:我想你当时正与团队讨论建立一个系统,让科学家们可以像使用网站一样提交特定蛋白质的请求,然后获得该蛋白质的折叠结果。是的。然后其他人提出了一个非常不同的想法。没错。你能带我回顾一下那次会议上发生了什么吗?然后你的反应简直不可思议。我真的很想知道你当时在想什么。
Demis Hassabis:好的,没问题。你看,凑巧的是摄像机正好在那场特定的会议上,这挺有意思的。恰好在那一天,这真是太疯狂了。他们很少跟拍我们,但偏偏就是那次会议。通常情况下,这类预测模型的工作模式是,按照传统做法,你需要建立一台服务器,然后其他科学家将他们的蛋白质序列发送给你。他们会说,噢,我对这个蛋白质很感兴趣。你能把预测出的结构发回给我吗?所以,这就是整个领域过去 40 多年来一直以来的做法。
其原因在于,大多数预测算法当然相当缓慢。所以可能需要几天时间,然后你会得到回复,也就是你会通过电子邮件发回结构,接着你会询问下一个,你会询问下一个结构。但一旦我在那次会议上意识到,我们不仅在蛋白质折叠方面能够达到多高的准确度,而且速度有多快,仅仅在几秒钟内就能完成。然后我就随手做了一个粗略的计算。比如科学界已知的、自然界中存在的蛋白质有多少,是 2 亿种吗?那么我们有多少台计算机,又需要多少台呢?
然后,如果我们每 10 秒折叠一个,我在那次会议中途摆弄手机时意识到,这在一年内是有可能实现的。那么,既然我们自己就能折叠所有东西,折叠任何人可能请求和想要的一切,并将其免费存放在某个数据库中供全球科学家使用,又何必费尽周折去构建服务器、数据库、电子邮件客户端以及所有这些东西呢?所以我突然就想通了。我们应该直接那样做。那样好得多。为什么我们不直接这样做呢?
这确实是方案之一,就像我们……对。这里有这个……我们应该直接运行现存的所有蛋白质。
我们应该直接运行现存的所有蛋白质。然后将其发布。突然之间,所有这些想法一定一直在我的脑海中盘旋,我猛然意识到这显然是该做的事情,而且实际上可能比建立服务器所耗费的精力更少。所以实际上这反而能为我们节省时间。
填补鸿沟:跟上基因测序的速度Cleo Abram:而在那次会议上,你的反应就像是,我们为什么不直接这样做呢?那样会好得多。我们显然应该那样做。然后你就去做了。突然之间,这个原本非常困难的关键流程变得既快速又简单。而且它正在被全世界的科学家们所使用。这个巨大的未解难题现在终于解决了。可以说我们现在已经预测了科学界已知几乎所有蛋白质的结构吗?
Demis Hassabis:是的。而且我们一直在持续更新。所以每当有人从海洋某处打捞起一桶水,桶里的海水中存在大量不同类型的生物,然后他们会对这些生物进行全基因组测序。显然,自人类基因组测序完成以来,测序技术已经取得了多个数量级的提升。因此,之前结构生物学面临的问题是,确定这些三维结构的过程耗时过长,远远滞后于基因测序的速度。
现在,有了像 AlphaFold 2 这样的计算资源,我们实际上可以跟上进度,比如面对新发现的某种奇异生物的百万条遗传序列。这些就是它们的结构。我们在欧洲生物信息研究所(European Bioinformatics Institute)拥有一个小团队,负责每年持续更新当年发现的所有新序列。所以我们现在始终处于最前沿。可以说,我们基本了解所有这些不同蛋白质结构的大致样貌。
Cleo Abram:那太棒了。Demis Hassabis:确实非常了不起。实际上,这对于那些研究稍微冷门一些的生物、动物或植物的科研人员来说尤为惊人。例如,我发现许多植物拥有的基因组数据远多于哺乳动物和人类,这非常奇怪。它们似乎拥有多份基因组拷贝之类的东西。
我认为植物世界是一个相当奇特且古怪的领域。但我的植物学家朋友们常说,他们缺乏相应的资源。比如人类基因组方面已经开展了大量研究。但一些对人类至关重要的冷门生物,比如农作物等,情况却并非如此。
现在,我们可以立即着手研究他们想要处理的蛋白质,或许能帮助这些作物更好地抵御气候变化等问题。他们可以直接切入自己真正感兴趣的科学问题,而无需在试图解析目标蛋白质的晶体结构上耗费过多精力。
另一个福音是针对那些致力于研究被忽视疾病的研究人员,这些疾病主要影响世界上的发展中地区,例如疟疾、查加斯病或利什曼病。这些疾病在全球范围内影响着数亿人。
但是,如果大型制药公司尝试对此进行研究并寻找治疗方法,由于它们处于较贫困的地区,往往获利空间并不大。因此,针对这些疾病的研究往往被忽视。
尽管有一些出色的非营利组织在进行相关研究,但他们缺乏足够的资金或资源。因此,为他们提供疟疾病毒等疾病相关蛋白质的结构模型,对他们来说也是巨大的福音,因为这使他们能够直接进入药物发现阶段。