【别被几亿个蛋白质序列骗了:大自然其实是个抄袭成性的“懒汉”】
很多人以为大自然有几十亿年的进化史,创造的蛋白质结构肯定浩瀚无垠。但最新研究戳破了这个泡泡:虽然蛋白质序列多到数不清,但它们折叠出来的3D结构极度匮乏。几百万个不同的序列,最后都挤在区区两万多个结构套路里,绝大多数甚至只用前1000个。
进化不是精密的工程师,而是一个手头有什么就凑合用什么的修补匠。一旦发现某个结构稳定好用,它就疯狂复制。
这给爆火的AI制药和酶设计提了个醒:如果AI只在天然数据里卷规模,那它不过是在死记硬背大自然的旧账本。真正的颠覆是不去模仿自然界的路径依赖,而是用AI去探索物理上可行、但进化还没来得及走到的结构禁区。别跟着大自然复读,教它做新题。
research.ligo.bio/posts/unreasonable-redundancy-of-natural-protein-folds/
