Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
ModelZoo
RFDesign_rosetta
Commits
b656e6b9
Commit
b656e6b9
authored
Aug 24, 2023
by
zhuwenwen
Browse files
update modelzoo std
parent
01e4be7d
Changes
2
Hide whitespace changes
Inline
Side-by-side
Showing
2 changed files
with
50 additions
and
26 deletions
+50
-26
README.md
README.md
+45
-23
model.properties
model.properties
+5
-3
No files found.
README.md
View file @
b656e6b9
...
@@ -2,21 +2,32 @@
...
@@ -2,21 +2,32 @@
*
@Author: zhuww
*
@Author: zhuww
*
@email: zhuww@sugon.com
*
@email: zhuww@sugon.com
*
@Date: 2023-06-14 17:07:00
*
@Date: 2023-06-14 17:07:00
*
@LastEditTime: 2023-0
6-14 09:2
0:00
*
@LastEditTime: 2023-0
8-24 10:3
0:00
-->
-->
# RFDesign
# RFDesign
## 模型介绍
## 论文
RFDesign基于Rosetta(一个广泛应用于蛋白质结构预测和蛋白质设计的开源软件包)开发,支持蛋白质分子设计任务,使用预先训练的蛋白质模型来预测和优化蛋白质的稳定性和功能。
-
[
https://www.biorxiv.org/content/10.1101/2021.11.10.468128v2
](
https://www.biorxiv.org/content/10.1101/2021.11.10.468128v2
)
## 模型结构
## 模型结构
RFDesign是一个使用Rosetta软件实现的蛋白质设计方法,模型结构包括特征提取器,用于从蛋白质序列和结构中提取特征的;序列-结构耦合模型,用于将蛋白质的序列信息和结构信息进行耦合,以捕捉它们之间的关联性;功能评估器,用于评估蛋白质的功能性;优化器用于对蛋白质进行优化,以改善其稳定性和功能。
RFDesign是一个使用Rosetta软件实现的蛋白质设计方法,模型结构包括特征提取器,用于从蛋白质序列和结构中提取特征的;序列-结构耦合模型,用于将蛋白质的序列信息和结构信息进行耦合,以捕捉它们之间的关联性;功能评估器,用于评估蛋白质的功能性;优化器用于对蛋白质进行优化,以改善其稳定性和功能。
## 数据集
[
PDB(Protein Data Bank)数据集
](
https://www.rcsb.org/
)
## 算法原理
RFDesign基于Rosetta(一个广泛应用于蛋白质结构预测和蛋白质设计的开源软件包)开发,支持蛋白质分子设计任务,使用预先训练的蛋白质模型来预测和优化蛋白质的稳定性和功能。
## 推理
### 环境配置
### 环境配置
提供
[
光源
](
https://www.sourcefind.cn/#/service-details
)
拉取推理的docker镜像:
提供
[
光源
](
https://www.sourcefind.cn/#/service-details
)
拉取推理的docker镜像:
*
推理镜像:docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:rfdesign-dtk22.10-patch4-py39-latest
```
docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:rfdesign-dtk22.10-patch4-py39-latest
docker run -it --name rfdesign --shm-size=32G --device=/dev/kfd --device=/dev/dri/ --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --ulimit memlock=-1:-1 --ipc=host --network host --group-add video image.sourcefind.cn:5000/dcu/admin/base/custom:rfdesign-dtk22.10-patch4-py39-latest /bin/bash
```
镜像版本依赖:
*
DTK驱动:dtk22.10
*
Pytorch: 1.10
*
Tensorflow: 2.7
*
Jax: 0.2.21
*
dgl: 0.9.1
*
python: python3.9
激活镜像环境:
激活镜像环境:
`source /opt/dtk-22.10/env.sh`
`source /opt/dtk-22.10/env.sh`
...
@@ -24,15 +35,11 @@ RFDesign是一个使用Rosetta软件实现的蛋白质设计方法,模型结构
...
@@ -24,15 +35,11 @@ RFDesign是一个使用Rosetta软件实现的蛋白质设计方法,模型结构
测试目录:
测试目录:
`/opt/RFDesign`
`/opt/RFDesign`
### 推理
## 数据集
推理版本:
[
PDB(Protein Data Bank)数据集
](
https://www.rcsb.org/
)
*
Pytorch(DCU版本) >= 1.10.0a0
*
Dgl(DCU版本) >= 0.9.1
*
TensorFlow2(DCU版本) >= 2.7.0
*
Jax(DCU版本) >= 0.2.21
#### 下载权重
## 推理
### 下载权重
cd /opt/RFDesign/hallucination/weights/rf_Nov05
cd /opt/RFDesign/hallucination/weights/rf_Nov05
wget http://files.ipd.uw.edu/pub/rfdesign/weights/BFF_last.pt
wget http://files.ipd.uw.edu/pub/rfdesign/weights/BFF_last.pt
...
@@ -41,7 +48,7 @@ RFDesign是一个使用Rosetta软件实现的蛋白质设计方法,模型结构
...
@@ -41,7 +48,7 @@ RFDesign是一个使用Rosetta软件实现的蛋白质设计方法,模型结构
wget http://files.ipd.uw.edu/pub/rfdesign/weights/BFF_mix_epoch25.pt
wget http://files.ipd.uw.edu/pub/rfdesign/weights/BFF_mix_epoch25.pt
###
#
hallucination
### hallucination
基于hallucination的测试命令:
基于hallucination的测试命令:
cd /opt/RFDesign/hallucination/tests/
cd /opt/RFDesign/hallucination/tests/
...
@@ -49,42 +56,49 @@ RFDesign是一个使用Rosetta软件实现的蛋白质设计方法,模型结构
...
@@ -49,42 +56,49 @@ RFDesign是一个使用Rosetta软件实现的蛋白质设计方法,模型结构
参数说明:--pdb是模板pdb结构,--out是结果保存路径的前缀,--len是hallucination蛋白的长度范围, --contigs是以逗号分隔的pdb范围列表来参考pdb,--steps是逗号分隔的优化步骤数列表,--num是是设计数量
参数说明:--pdb是模板pdb结构,--out是结果保存路径的前缀,--len是hallucination蛋白的长度范围, --contigs是以逗号分隔的pdb范围列表来参考pdb,--steps是逗号分隔的优化步骤数列表,--num是是设计数量
###
#
inpainting
### inpainting
基于inpainting的测试命令:
基于inpainting的测试命令:
cd /opt/RFDesign/inpainting/tests/
cd /opt/RFDesign/inpainting/tests/
./run_tests.sh # 结果默认保存在/opt/RFDesign/
halluc
in
a
ti
o
n/tests/out
./run_tests.sh # 结果默认保存在/opt/RFDesign/
inpa
intin
g
/tests/out
参数说明:--pdb是模板蛋白质结构(序列)的pdb文件,--out 是结果保存路径的前缀,--contigs是指定保留、移除和修复蛋白质的部分,--num_designs是生成的设计数量
参数说明:--pdb是模板蛋白质结构(序列)的pdb文件,--out 是结果保存路径的前缀,--contigs是指定保留、移除和修复蛋白质的部分,--num_designs是生成的设计数量
###
#
准备输入和后处理以及hallucination评分结果
### 准备输入和后处理以及hallucination评分结果
运行hallucination或inpainting后,首先生成一个带侧链的松弛模型(.fas、.pdb、.npz、.trb 文件),该步骤需要.pdb和.npz文件,完成后,会生成一个FOLDER/trf_relax文件夹(包含松弛结构的pdb)
运行hallucination或inpainting后,首先生成一个带侧链的松弛模型(.fas、.pdb、.npz、.trb 文件),该步骤需要.pdb和.npz文件,完成后,会生成一个FOLDER/trf_relax文件夹(包含松弛结构的pdb)
cd /opt/RFDesign/scripts
cd /opt/RFDesign/scripts
./trf_relax.sh FOLDER # FOLDER包含hallucination或inpainting的结果
./trf_relax.sh FOLDER # FOLDER包含hallucination或inpainting的结果
####
#
AlphaFold2
#### AlphaFold2
根据hallucination设计模型和模板结构,进行AlphaFold2预测和计算RMSD:
根据hallucination设计模型和模板结构,进行AlphaFold2预测和计算RMSD:
./af2_metrics.py FOLDER/trf_relax # 修改第241行的data_dir为自己的alphafold2数据集路径
./af2_metrics.py FOLDER/trf_relax # 修改第241行的data_dir为自己的alphafold2数据集路径
该步骤会将AF2模型输出到FOLDER/trf_relax/af2/,并将指标输出到FOLDER/af2_metrics.csv
该步骤会将AF2模型输出到FOLDER/trf_relax/af2/,并将指标输出到FOLDER/af2_metrics.csv
####
#
Pyrosetta指标
#### Pyrosetta指标
./pyrosetta_metrics.py FOLDER/trf_relax
./pyrosetta_metrics.py FOLDER/trf_relax
该步骤会计算hallucination(RoseTTAFold)设计模型和参考结构之间的RMSD,以及回转半径、二级结构、拓扑结构(即HHH或HEEH)
该步骤会计算hallucination(RoseTTAFold)设计模型和参考结构之间的RMSD,以及回转半径、二级结构、拓扑结构(即HHH或HEEH)
####
#
在PyMOL中对齐模型
#### 在PyMOL中对齐模型
使设计与受限区域上的参考结构对齐的pymol会话:
使设计与受限区域上的参考结构对齐的pymol会话:
./pymol_align.py -- -o OUTPUT.pse FOLDER/*pdb
./pymol_align.py -- -o OUTPUT.pse FOLDER/*pdb
该步骤会在当前文件夹中创建一个名为OUTPUT.pse的会话,其中包含来自REFERENCE.pdb的原始结构,所有设计都与FOLDER/
*
.pdb对齐
该步骤会在当前文件夹中创建一个名为OUTPUT.pse的会话,其中包含来自REFERENCE.pdb的原始结构,所有设计都与FOLDER/
*
.pdb对齐
## 准确率数据
## result
/opt/RFDesign/
hallucination/
tests/output
inpainting/
tests/out
## 精度
测试数据:
`/opt/RFDesign/hallucination/tests`
和
`/opt/RFDesign/inpainting/tests/2KL8.pdb`
,使用的加速卡:1张 DCU Z100L-32G
测试数据:
`/opt/RFDesign/hallucination/tests`
和
`/opt/RFDesign/inpainting/tests/2KL8.pdb`
,使用的加速卡:1张 DCU Z100L-32G
准确率数据:
准确率数据:
...
@@ -95,6 +109,14 @@ RFDesign是一个使用Rosetta软件实现的蛋白质设计方法,模型结构
...
@@ -95,6 +109,14 @@ RFDesign是一个使用Rosetta软件实现的蛋白质设计方法,模型结构
| rsvf-v_5tpn | 75.460 | 2.685 | 1.536 | 3.917 |
| rsvf-v_5tpn | 75.460 | 2.685 | 1.536 | 3.917 |
| 2KL8 | 89.197 | 0.813 | 0.824 | 0.865 |
| 2KL8 | 89.197 | 0.813 | 0.824 | 0.865 |
## 应用场景
### 算法类别
NLP
### 热点应用行业
医疗,科研,教育
## 源码仓库及问题反馈
## 源码仓库及问题反馈
*
[
https://developer.hpccube.com/codes/modelzoo/rfdesign_rosetta
](
https://developer.hpccube.com/codes/modelzoo/rfdesign_rosetta
)
*
[
https://developer.hpccube.com/codes/modelzoo/rfdesign_rosetta
](
https://developer.hpccube.com/codes/modelzoo/rfdesign_rosetta
)
...
...
model.properties
View file @
b656e6b9
# 模型唯一标识
modelCode
=
203
# 模型名称
# 模型名称
modelName
=
RFD
esign_
R
ose
TTA
modelName
=
rfd
esign_
r
ose
tta
# 模型描述
# 模型描述
modelDescription
=
RFDesign基于Rosetta(一个广泛应用于蛋白质结构预测和蛋白质设计的开源软件包)开发,支持蛋白质分子设计任务,使用预先训练的蛋白质模型来预测和优化蛋白质的稳定性和功能
modelDescription
=
RFDesign基于Rosetta(一个广泛应用于蛋白质结构预测和蛋白质设计的开源软件包)开发,支持蛋白质分子设计任务,使用预先训练的蛋白质模型来预测和优化蛋白质的稳定性和功能
# 应用场景
# 应用场景
appScenario
=
推理,蛋白质分子设计
appScenario
=
推理,
rosetta,
蛋白质分子设计
# 框架类型
# 框架类型
frameType
=
DGL,PyT
orch,
T
ensorflow,
JAX
frameType
=
dgl,pyt
orch,
t
ensorflow,
jax
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment