AlphaFold可以做什么?

我自20年底AlphaFold2一战成名后就开始关注该模型,这篇文章是2021年10月,AlphaFold文章正式在Nature发布后,给实验室非计算机背景的同门写下的一些自己在应用层面的理解,时隔两年再次读起,发现本文一些观点已经不再正确了(比如AlphaFold官方已经开发了复合体的预测模型),但作为对当年学习的记录,就不再更正原文

AlphaFold官方说法是可以高精度地预测自然发生的、单链的蛋白结构,其原理主要依赖于多序列比对,部分依赖于数据库中的已知结构,得到的结果在结构域层面是具有较高精度的,但其构象所处的状态以及该状态下的分子活性仍需要进一步地判断,根据官方的说法对于以下几种情况,AplhaFold并不十分适用(但也有一些民间方法来解决这些问题):

  1. AlphaFold不适用于复合体的预测,在机器学习模型的设计上数据输入格式就仅含有一条序列的输入;因AlphaFold更多是在模仿自然规律来得到最优结构,因而在输入复合体中一部分的蛋白序列时得到的结果可能是与复合体相同的,但也有可能因缺少互作而与其不相似。

    (Ko and Lee, 2021) 这篇文章里在测试复合体结构时,使用了30个Gly的Linker将两个蛋白连起来,发现效果还不错,不过只是小规模测试,不能保证具有普遍性

  2. 对于连续的无序区域(disordered or unstructured),AlphaFold的预测效果也会明显变差;对于结构中的非蛋白成分(比如一些配体)不能给出预测,但蛋白的部分官方说效果还不错

  3. 突变体蛋白因为不是自然发生的,因而不能保证结果的正确性

  4. 对于蛋白质的构象问题,AlphaFold给出的蛋白质结构可能是自然构象之一,这个过程不可控;

    最近这篇文章将一个可以聚合的蛋白C段的抑制序列删除后再预测,AlphaFold给出的构象竟然预测出了聚合状态下的构象,似乎说明了AlphaFold在预测蛋白质构象变化中具有一定的潜力


在拿到AlphaFold的假定结构后,对于非结构生物学领域来说也可以利用结构做一些互作和功能上的预测,但具体的做法还需要进一步地摸索