Commit 76287c5b authored by yuhai's avatar yuhai
Browse files

Update README.md

parent 19b57ce3
...@@ -127,27 +127,34 @@ Alphafold的数据预处理需要花费大量时间,因此我们通过[ray](ht ...@@ -127,27 +127,34 @@ Alphafold的数据预处理需要花费大量时间,因此我们通过[ray](ht
要使用ray工作流运行推理,应将参数--enable_workflow添加到cmdline或`./inference.sh`脚本中。 要使用ray工作流运行推理,应将参数--enable_workflow添加到cmdline或`./inference.sh`脚本中。
### 多体 ### 多体
python3 inference.py SUGP1.fasta /alphafold/pdb_mmcif/mmcif_files \
--output_dir ./output \ 本项目因为多体测试要进行序列搜索,昆山节点CPU在这项工作上非常耗时,所以没有提供对应的alignments以及内置params_model_1_multimer.npz。
--gpus 4 \ 若您想要进行多体测试,挂载AF2数据集目录至/data,例如在创建容器时添加"-v /public/DL_DATA/AI/alphaflod:/data:ro"。
--model_preset multimer \
--uniref90_database_path /alphafold/uniref90/uniref90.fasta \ python3 inference.py SUGP1.fasta /data/pdb_mmcif/mmcif_files \
--mgnify_database_path /alphafold/mgnify/mgy_clusters_2018_12.fa \ --output_dir ./output \
--pdb70_database_path /alphafold/pdb70/pdb70 \ --gpus 2 \
--uniclust30_database_path /alphafold/uniclust30/uniclust30_2018_08/uniclust30_2018_08 \ --model_preset multimer \
--uniprot_database_path /alphafold/uniprot/uniprot_trembl.fasta \ --uniref90_database_path /data/uniref90/uniref90.fasta \
--pdb_seqres_database_path /alphafold/pdb_seqres/pdb_seqres.txt \ --mgnify_database_path /data/mgnify/mgy_clusters_2018_12.fa \
--param_path /alphafold/params/params_model_1_multimer.npz \ --pdb70_database_path /data/pdb70/pdb70 \
--model_name model_1_multimer \ --uniclust30_database_path /data/uniclust30/uniclust30_2018_08/uniclust30_2018_08 \
--jackhmmer_binary_path `which jackhmmer` \ --bfd_database_path /data/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt \
--hhblits_binary_path `which hhblits` \ --uniprot_database_path /data/uniprot/uniprot_sprot.fasta \
--hhsearch_binary_path `which hhsearch` \ --pdb_seqres_database_path /data/pdb_seqres/pdb_seqres.txt \
--kalign_binary_path `which kalign` \ --param_path /data/params/params_model_1_multimer.npz \
--chunk_size 4 \ --model_name model_1_multimer \
--jackhmmer_binary_path `which jackhmmer` \
--hhblits_binary_path `which hhblits` \
--hhsearch_binary_path `which hhsearch` \
--kalign_binary_path `which kalign` \
--chunk_size 4 \
--inplace \ --inplace \
或者使用`./inference_multimer.sh` 或者使用`sh inference_multimer.sh`
根据实际情况修改数据集路径 请根据实际情况修改数据集路径。
注意您运行多体测试时,如果挂载的AF2数据集如果没有"bfd"而是"small_bfd",请删除"--bfd_database_path /data/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt",如果提示您没有"/data/uniprot/uniprot_sprot.fasta",请将"uniprot_sprot.fasta"换成您数据目录下有的"uniprot_*.fasta",例如"/data/uniprot/uniprot_trembl.fasta"。
运行后您会发现卡在"running in multimer mode..."并且没有使用DCU,这是正常的,因为要使用CPU进行序列搜索一段时间,以本项目的多体测试为例,序列搜索结束后会输出"Finished running alignment for sp_Q8IWZ8_SUGP1_HUMAN_SURP_and_G-patch_domain-containing_protein_1_OS_Homo_sapiens_OX_9606_GN_SUGP1_PE_1-SV_2_188_242"信息,然后会卡在这个输出信息,无法使用DCU加速,这是正常现象,因为正在进行更加耗时的CPU操作,具体耗时与您的CPU型号有关。
#### 多体推理参数说明 #### 多体推理参数说明
SUGP1.fasta为推理的多体序列;`--param_path`为加载多体模型路径,需要和`--model_name`保持一致,其他参数同单体推理参数说明一致. SUGP1.fasta为推理的多体序列;`--param_path`为加载多体模型路径,需要和`--model_name`保持一致,其他参数同单体推理参数说明一致.
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment