AlphaFold2在CASP14蛋白质结构预测关键评估大赛中夺得第一名的好成绩,其预测的大部分结构达到了空前的准确度,与实验方法(X-ray、冷冻电镜、核磁共振)不相上下,其成绩也远超其它的选手。
目前,AlphaFold2的源代码已经在GitHub上公开,而且现在科学家正在利用AlphaFold2对已有的蛋白数据库进行高通量的预测,建立了一些模式生物物种所有蛋白的AlphaFold2预测结构数据库(如图)。
可以看到,虽然利用AlphaFold2预测了这么重要模式生物的数据库,但是还是有一些重要的研究对象的数据库并没有,所以只有搭建本地的AlphaFold2服务,你才能用AlphaFold2随心所欲的预测自己研究蛋白的结构。接下来教你们如何安装AlphaFold2。(本文建议有Linux基础的人食用,非战斗人员除非你非常非常走运,否则过程中肯定会出错。)
一、介绍配置要求
该团队在Google云服务器上做测试时用的配置:
CPU:12核
内存:85GB
bootdisk:GB(这个应该用来安装系统和环境)
硬盘:3TB
显卡:A一块
看了这个配置,你是不是直接放弃了,硬盘3T,但是如果你用reduced_dbs(这个是简化的数据库),那么至少也得有GB的硬盘空间。
我自己的配置:
CPU:IntelXeonGold
内存:GB
系统:CentOS7.6
硬盘:87TB
显卡:NVIDIAGeForceRTXTi四块
这个配置是足够满足要求的,OK,下一步下载程序相关的文件。
个人要求:
会Linux基础知识,熟悉Linux环境下软件包的安装,熟悉脚本程序运行
二、下载程序需要的数据库、程序和模型
1、下载数据库:
首先你得准备个比较大的硬盘空间,至少得有三个T左右,然后把github上面这个包给下载到一个目录,然后进入scripts这个文件夹里面,运行命令download_all_data.sh下载目录,然后程序会自动进行下载。(运行前请确保电脑可以正常上网,下载会用到两个工具aria2和rsync),这个过程大概会下载GB的文件,得等待很长时间,如果断网的话,你还得把其它的都删掉,重新下载。我不介意直接运行这个主程序,可以利用多台机器分个下载。当然你也可以用在windows上提前用迅雷这种工具下载好,然后在拷贝到服务器上面去解压。利用迅雷下载的话你可以把scripts文件当做文本文件打开,里面会有下载的链接,除了pdb_mmcif这个文件之外,其它的都是可以使用迅雷下载,为什么这个文件不行,因为pdb网站并没有提供压缩的mmcif数据库文件,每个都是小文件,必须得用同步的方式把pdb服务器上面的数据库同步到本地才行,这一步建议直接在安装目录上去操作单独脚本下载,不然到时候拷贝和压缩以及解压要花大力气,这个文件夹里面有18万个cif文件,你仔细琢磨琢磨。
下载完成后,你得解压,不同压缩后缀压缩文件解压命令不一样,可以自行去百度一下Linux下各种压缩文件的解压缩命令,解压后