Add sequence embedding mode option to .core file parser

08ef6e9f · Sachin Kadyan · 395a9f1b · 08ef6e9f · 08ef6e9f
Commit 08ef6e9f authored Sep 15, 2023 by Sachin Kadyan
Hide whitespace changes
Inline Side-by-side

Showing with 10 additions and 2 deletions

openfold/data/data_modules.py openfold/data/data_modules.py +1 -0

openfold/data/data_pipeline.py openfold/data/data_pipeline.py +9 -2

No files found.
--- a/openfold/data/data_modules.py
+++ b/openfold/data/data_modules.py
@@ -240,6 +240,7 @@ class OpenFoldSingleDataset(torch.utils.data.Dataset):
            elif(ext == ".core"):
                data = self.data_pipeline.process_core(
                    path, alignment_dir, alignment_index,
+                    seqemb_mode=self.config.seqemb_mode.enabled,
                )
            elif(ext == ".pdb"):
                structure_index = None

--- a/openfold/data/data_pipeline.py
+++ b/openfold/data/data_pipeline.py
@@ -802,6 +802,7 @@ class DataPipeline:
        core_path: str,
        alignment_dir: str,
        alignment_index: Optional[str] = None,
+        seqemb_mode: bool = False,
    ) -> FeatureDict:
        """
            Assembles features for a protein in a ProteinNet .core file.
@@ -821,9 +822,15 @@ class DataPipeline:
            self.template_featurizer,
        )

-        msa_features = self._process_msa_feats(alignment_dir, input_sequence)
+        sequence_embedding_features = {}
+        # If in sequence embedding mode, generate dummy MSA features using just the input sequence
+        if seqemb_mode:
+            msa_features = make_dummy_msa_feats(input_sequence)
+            sequence_embedding_features = self._process_seqemb_features(alignment_dir)
+        else:
+            msa_features = self._process_msa_feats(alignment_dir, input_sequence)

-        return {**core_feats, **template_features, **msa_features}
+        return {**core_feats, **template_features, **msa_features, **sequence_embedding_features}

    def process_multiseq_fasta(self,
        fasta_path: str,