Commit ddaaa43a authored by zhuwenwen's avatar zhuwenwen
Browse files

update readme

parent 38f5fa63
...@@ -2,26 +2,28 @@ ...@@ -2,26 +2,28 @@
* @Author: zhuww * @Author: zhuww
* @email: zhuww@sugon.com * @email: zhuww@sugon.com
* @Date: 2023-04-06 18:04:07 * @Date: 2023-04-06 18:04:07
* @LastEditTime: 2023-04-25 14:05:01 * @LastEditTime: 2023-08-18 16:21:01
--> -->
# AlphaFold2 # AlphaFold2
## 模型介绍 ## 论文
AlphaFold2是一个用于预测蛋白质三维结构的深度学习模型。 - [https://www.nature.com/articles/s41586-021-03819-2](https://www.nature.com/articles/s41586-021-03819-2)
## 模型结构 ## 模型结构
模型核心是一个基于Transformer架构的神经网络,包括两个主要组件:Sequence to Sequence Model和Structure Model,这两个组件通过迭代训练进行优化,以提高其预测准确性。 模型核心是一个基于Transformer架构的神经网络,包括两个主要组件:Sequence to Sequence Model和Structure Model,这两个组件通过迭代训练进行优化,以提高其预测准确性。
## 数据集
推荐使用AlphaFold2中的开源数据集,包括BFD、MGnify、PDB70、Uniclust、Uniref90等,数据集大小约3TB。
我们提供了一个脚本download_all_data.sh用于下载使用的数据集和模型文件: ## 算法原理
AlphaFold2通过从蛋白质序列和结构数据中提取信息,使用神经网络模型来预测蛋白质三维结构。
git clone http://developer.hpccube.com/codes/modelzoo/alphafold2.git
./scripts/download_all_data.sh 数据集下载目录
## 推理 ## 环境配置
### 环境配置
提供[光源](https://www.sourcefind.cn/#/service-details)拉取推理的docker镜像: 提供[光源](https://www.sourcefind.cn/#/service-details)拉取推理的docker镜像:
* 推理镜像:docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:alphafold2-2.2.1-centos7.6-dtk-22.04.2-py38 * 推理镜像:docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:alphafold2-2.2.1-centos7.6-dtk-22.04.2-py38
镜像版本依赖:
* DTK驱动:dtk22.04.2
* Jax: 0.3.14
* TensorFlow2: 2.7.0
* python: python3.8
激活镜像环境: 激活镜像环境:
`source /opt/dtk-22.04.2/env.sh` `source /opt/dtk-22.04.2/env.sh`
...@@ -32,11 +34,16 @@ AlphaFold2是一个用于预测蛋白质三维结构的深度学习模型。 ...@@ -32,11 +34,16 @@ AlphaFold2是一个用于预测蛋白质三维结构的深度学习模型。
`/opt/docker/test` `/opt/docker/test`
### 推理 ## 数据集
我们分别提供了基于Jax的单体和多体的推理脚本,版本依赖: 推荐使用AlphaFold2中的开源数据集,包括BFD、MGnify、PDB70、Uniclust、Uniref90等,数据集大小约3TB。
* Jax(DCU版本) >= 0.3.14
* TensorFlow2(DCU版本) >= 2.7.0 此处提供了一个脚本download_all_data.sh用于下载使用的数据集和模型文件:
git clone http://developer.hpccube.com/codes/modelzoo/alphafold2.git
./scripts/download_all_data.sh 数据集下载目录
## 推理
分别提供了基于Jax的单体和多体的推理脚本.
设置DOWNLOAD_DIR路径和output_dir路径。确保输出目录存在,并且您有足够的权限对其进行写入。 设置DOWNLOAD_DIR路径和output_dir路径。确保输出目录存在,并且您有足够的权限对其进行写入。
# Set to target of download all databases # Set to target of download all databases
...@@ -45,7 +52,7 @@ AlphaFold2是一个用于预测蛋白质三维结构的深度学习模型。 ...@@ -45,7 +52,7 @@ AlphaFold2是一个用于预测蛋白质三维结构的深度学习模型。
# Path to a directory that will store the results. # Path to a directory that will store the results.
output_dir = '/path/to/output_dir' output_dir = '/path/to/output_dir'
#### 单体 ### 单体
python3 run_alphafold.py \ python3 run_alphafold.py \
--fasta_paths=monomer.fasta \ --fasta_paths=monomer.fasta \
...@@ -57,11 +64,11 @@ AlphaFold2是一个用于预测蛋白质三维结构的深度学习模型。 ...@@ -57,11 +64,11 @@ AlphaFold2是一个用于预测蛋白质三维结构的深度学习模型。
或者使用`./run_monomer.sh` 或者使用`./run_monomer.sh`
##### 单体推理参数说明 #### 单体推理参数说明
monomer.fasta为推理的单体序列;--output_dir为输出目录;--model_preset选择模型配置;--run_relax=true为进行relax操作;--use_gpu_relax=true为使用gpu进行relax操作(速度更快,但可能不太稳定),--use_gpu_relax=false为使用CPU进行relax操作(速度慢,但稳定); monomer.fasta为推理的单体序列;--output_dir为输出目录;--model_preset选择模型配置;--run_relax=true为进行relax操作;--use_gpu_relax=true为使用gpu进行relax操作(速度更快,但可能不太稳定),--use_gpu_relax=false为使用CPU进行relax操作(速度慢,但稳定);
若添加--use_precomputed_msas=true则可以加载已经搜索对齐的序列,否则默认进行搜索对齐; 若添加--use_precomputed_msas=true则可以加载已经搜索对齐的序列,否则默认进行搜索对齐;
#### 多体 ### 多体
python3 run_alphafold.py \ python3 run_alphafold.py \
--fasta_paths=multimer.fasta \ --fasta_paths=multimer.fasta \
...@@ -76,10 +83,10 @@ monomer.fasta为推理的单体序列;--output_dir为输出目录;--model_pr ...@@ -76,10 +83,10 @@ monomer.fasta为推理的单体序列;--output_dir为输出目录;--model_pr
或者使用`./run_multimer.sh` 或者使用`./run_multimer.sh`
##### 多体推理参数说明 #### 多体推理参数说明
multimer.fasta为推理的多体序列,data为数据集下载路径,其他参数同单体推理参数说明一致。 multimer.fasta为推理的多体序列,data为数据集下载路径,其他参数同单体推理参数说明一致。
### 输出 ## result
`--output_dir`目录结构如下: `--output_dir`目录结构如下:
``` ```
<target_name>/ <target_name>/
...@@ -97,7 +104,7 @@ multimer.fasta为推理的多体序列,data为数据集下载路径,其他 ...@@ -97,7 +104,7 @@ multimer.fasta为推理的多体序列,data为数据集下载路径,其他
... ...
``` ```
## 准确率数据 ## 精度
测试数据:[casp14](https://www.predictioncenter.org/casp14/targetlist.cgi)[uniprot](https://www.uniprot.org/) 测试数据:[casp14](https://www.predictioncenter.org/casp14/targetlist.cgi)[uniprot](https://www.uniprot.org/)
使用的加速卡:1张 DCU 1代-16G 使用的加速卡:1张 DCU 1代-16G
...@@ -108,8 +115,20 @@ multimer.fasta为推理的多体序列,data为数据集下载路径,其他 ...@@ -108,8 +115,20 @@ multimer.fasta为推理的多体序列,data为数据集下载路径,其他
| fp32 | 单体 | T1053 | 580 | 0.941 | 0.789 | 92.316 | 0.985 | 0.935 | 1.1 | | fp32 | 单体 | T1053 | 580 | 0.941 | 0.789 | 92.316 | 0.985 | 0.935 | 1.1 |
| fp32 | 单体 | T1091 | 863 | 0.492 | 0.332 | 85.083 | 0.740 | 0.388 | 6.7 | | fp32 | 单体 | T1091 | 863 | 0.492 | 0.332 | 85.083 | 0.740 | 0.388 | 6.7 |
## 应用场景
### 算法类别
NLP
### 应用行业
医疗,科研
### 算法框架
jax,tensorflow
## 源码仓库及问题反馈 ## 源码仓库及问题反馈
* https://developer.hpccube.com/codes/modelzoo/AlphaFold2 * [https://developer.hpccube.com/codes/modelzoo/AlphaFold2](https://developer.hpccube.com/codes/modelzoo/AlphaFold2)
## 参考 ## 参考
* [https://github.com/deepmind/alphafold](https://github.com/deepmind/alphafold) * [https://github.com/deepmind/alphafold](https://github.com/deepmind/alphafold)
# 模型唯一标识
modelCode = 112
# 模型名称 # 模型名称
modelName=AlphaFold2_Jax modelName=alphafold2_jax
# 模型描述 # 模型描述
modelDescription=AlphaFold2是一个用于预测蛋白质三维结构的深度学习模型 modelDescription=AlphaFold2是一个用于预测蛋白质三维结构的深度学习模型
# 应用场景(多个标签以英文逗号分割) # 应用场景(多个标签以英文逗号分割)
appScenario=推理,NLP,蛋白质结构预测 appScenario=推理,NLP,蛋白质结构预测,医疗,科研
# 框架类型(多个标签以英文逗号分割) # 框架类型(多个标签以英文逗号分割)
frameType=Jax,TensorFlow frameType=jax,tensorflow
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment