Added switch for sequence embedding mode to the PDB file pipeline.

- In `seqemb_mode`, `process_pdb` loads sequence embedding for the PDB's protein, and a dummy MSA

Added switch for sequence embedding mode to the PDB file pipeline.
- In `seqemb_mode`, `process_pdb` loads sequence embedding for the PDB's protein, and a dummy MSA
624b5aa6 · Sachin Kadyan · 29962990 · 624b5aa6
Commit 624b5aa6 authored Oct 29, 2022 by Sachin Kadyan
Hide whitespace changes
Inline Side-by-side

Showing with 9 additions and 2 deletions

openfold/data/data_pipeline.py openfold/data/data_pipeline.py +9 -2

No files found.
--- a/openfold/data/data_pipeline.py
+++ b/openfold/data/data_pipeline.py
@@ -753,6 +753,7 @@ class DataPipeline:
        chain_id: Optional[str] = None,
        _structure_index: Optional[str] = None,
        alignment_index: Optional[str] = None,
+        seqemb_mode: bool = False,
    ) -> FeatureDict:
        """
            Assembles features for a protein in a PDB file.
@@ -786,9 +787,15 @@ class DataPipeline:
            self.template_featurizer,
        )

-        msa_features = self._process_msa_feats(alignment_dir, input_sequence, alignment_index)
+        sequence_embedding_features = {}
+        # If in sequence embedding mode, generate dummy MSA features using just the input sequence
+        if seqemb_mode:
+            msa_features = make_dummy_msa_feats(input_sequence)
+            sequence_embedding_features = self._process_seqemb_features(alignment_dir)
+        else:
+            msa_features = self._process_msa_feats(alignment_dir, input_sequence, alignment_index)

-        return {**pdb_feats, **template_features, **msa_features}
+        return {**pdb_feats, **template_features, **msa_features, **sequence_embedding_features}

    def process_core(
        self,