Fix `test_model_parallelism` (#25359)

* fix * fix --------- Co-authored-by: ydshieh <ydshieh@users.noreply.github.com>

Fix `test_model_parallelism` (#25359)
* fix * fix --------- Co-authored-by: ydshieh <ydshieh@users.noreply.github.com>
6ea3ee3c · Yih-Dar · GitHub · d4bd33cc · 6ea3ee3c · 6ea3ee3c
Unverified Commit 6ea3ee3c authored Aug 08, 2023 by Yih-Dar Committed by GitHub Aug 08, 2023
20 changed files
--- a/src/transformers/models/clip/modeling_clip.py
+++ b/src/transformers/models/clip/modeling_clip.py
@@ -793,7 +793,7 @@ class CLIPTextTransformer(nn.Module):
 class CLIPTextModel(CLIPPreTrainedModel):
    config_class = CLIPTextConfig
-    _no_split_modules = ["CLIPEncoderLayer"]
+    _no_split_modules = ["CLIPTextEmbeddings", "CLIPEncoderLayer"]
    def __init__(self, config: CLIPTextConfig):
        super().__init__(config)
@@ -1198,7 +1198,7 @@ class CLIPModel(CLIPPreTrainedModel):
 class CLIPTextModelWithProjection(CLIPPreTrainedModel):
    config_class = CLIPTextConfig
-    _no_split_modules = ["CLIPEncoderLayer"]
+    _no_split_modules = ["CLIPTextEmbeddings", "CLIPEncoderLayer"]
    def __init__(self, config: CLIPTextConfig):
        super().__init__(config)

--- a/src/transformers/models/clipseg/modeling_clipseg.py
+++ b/src/transformers/models/clipseg/modeling_clipseg.py
@@ -800,7 +800,7 @@ class CLIPSegTextTransformer(nn.Module):
 class CLIPSegTextModel(CLIPSegPreTrainedModel):
    config_class = CLIPSegTextConfig
-    _no_split_modules = ["CLIPSegEncoderLayer"]
+    _no_split_modules = ["CLIPSegTextEmbeddings", "CLIPSegEncoderLayer"]
    def __init__(self, config: CLIPSegTextConfig):
        super().__init__(config)

--- a/src/transformers/models/data2vec/modeling_data2vec_text.py
+++ b/src/transformers/models/data2vec/modeling_data2vec_text.py
@@ -593,7 +593,7 @@ class Data2VecTextPreTrainedModel(PreTrainedModel):
    config_class = Data2VecTextConfig
    base_model_prefix = "data2vec_text"
    supports_gradient_checkpointing = True
-    _no_split_modules = []
+    _no_split_modules = ["Data2VecTextForTextEmbeddings", "Data2VecTextLayer"]
    def _init_weights(self, module):
        """Initialize the weights"""

--- a/src/transformers/models/deit/modeling_deit.py
+++ b/src/transformers/models/deit/modeling_deit.py
@@ -399,7 +399,7 @@ class DeiTPreTrainedModel(PreTrainedModel):
    base_model_prefix = "deit"
    main_input_name = "pixel_values"
    supports_gradient_checkpointing = True
-    _no_split_modules = []
+    _no_split_modules = ["DeiTLayer"]
    def _init_weights(self, module: Union[nn.Linear, nn.Conv2d, nn.LayerNorm]) -> None:
        """Initialize the weights"""

--- a/src/transformers/models/esm/modeling_esm.py
+++ b/src/transformers/models/esm/modeling_esm.py
@@ -690,7 +690,7 @@ class EsmPreTrainedModel(PreTrainedModel):
    config_class = EsmConfig
    base_model_prefix = "esm"
-    _no_split_modules = ["EsmLayer", "EsmFoldTriangularSelfAttentionBlock"]
+    _no_split_modules = ["EsmLayer", "EsmFoldTriangularSelfAttentionBlock", "EsmEmbeddings"]
    # Copied from transformers.models.bert.modeling_bert.BertPreTrainedModel._init_weights
    def _init_weights(self, module):

--- a/src/transformers/models/esm/modeling_esmfold.py
+++ b/src/transformers/models/esm/modeling_esmfold.py
@@ -2018,6 +2018,8 @@ class EsmFoldingTrunk(nn.Module):
    ESM_START_DOCSTRING,
 )
 class EsmForProteinFolding(EsmPreTrainedModel):
+    _no_split_modules = ["EsmFoldStructureModule", "EsmFoldTriangularSelfAttentionBlock"]
    def __init__(self, config):
        super().__init__(config)

--- a/src/transformers/models/instructblip/modeling_instructblip.py
+++ b/src/transformers/models/instructblip/modeling_instructblip.py
@@ -275,7 +275,12 @@ class InstructBlipPreTrainedModel(PreTrainedModel):
    config_class = InstructBlipConfig
    base_model_prefix = "blip"
    supports_gradient_checkpointing = True
-    _no_split_modules = ["InstructBlipAttention", "InstructBlipQFormerMultiHeadAttention"]
+    _no_split_modules = [
+        "InstructBlipQFormerEmbeddings",
+        "InstructBlipAttention",
+        "InstructBlipQFormerMultiHeadAttention",
+        "InstructBlipQFormerSelfOutput",
+    ]
    _keep_in_fp32_modules = []
    # Copied from transformers.models.blip_2.modeling_blip_2.Blip2PreTrainedModel._init_weights with Blip2->InstructBlip

--- a/src/transformers/models/lilt/modeling_lilt.py
+++ b/src/transformers/models/lilt/modeling_lilt.py
@@ -579,7 +579,6 @@ class LiltPooler(nn.Module):
        return pooled_output
-# Copied from transformers.models.roberta.modeling_roberta.RobertaPreTrainedModel with Roberta->Lilt,roberta->lilt
 class LiltPreTrainedModel(PreTrainedModel):
    """
    An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained

--- a/src/transformers/models/roberta/modeling_roberta.py
+++ b/src/transformers/models/roberta/modeling_roberta.py
@@ -593,7 +593,7 @@ class RobertaPreTrainedModel(PreTrainedModel):
    config_class = RobertaConfig
    base_model_prefix = "roberta"
    supports_gradient_checkpointing = True
-    _no_split_modules = []
+    _no_split_modules = ["RobertaEmbeddings", "RobertaSelfAttention"]
    # Copied from transformers.models.bert.modeling_bert.BertPreTrainedModel._init_weights
    def _init_weights(self, module):

--- a/src/transformers/models/roberta_prelayernorm/modeling_roberta_prelayernorm.py
+++ b/src/transformers/models/roberta_prelayernorm/modeling_roberta_prelayernorm.py
@@ -596,7 +596,7 @@ class RobertaPreLayerNormPreTrainedModel(PreTrainedModel):
    config_class = RobertaPreLayerNormConfig
    base_model_prefix = "roberta_prelayernorm"
    supports_gradient_checkpointing = True
-    _no_split_modules = []
+    _no_split_modules = ["RobertaPreLayerNormEmbeddings", "RobertaPreLayerNormSelfAttention"]
    # Copied from transformers.models.bert.modeling_bert.BertPreTrainedModel._init_weights
    def _init_weights(self, module):

--- a/src/transformers/models/vilt/modeling_vilt.py
+++ b/src/transformers/models/vilt/modeling_vilt.py
@@ -573,7 +573,7 @@ class ViltPreTrainedModel(PreTrainedModel):
    config_class = ViltConfig
    base_model_prefix = "vilt"
    supports_gradient_checkpointing = True
-    _no_split_modules = ["ViltSelfAttention"]
+    _no_split_modules = ["ViltEmbeddings", "ViltSelfAttention"]
    def _init_weights(self, module):
        """Initialize the weights"""

--- a/src/transformers/models/vit/modeling_vit.py
+++ b/src/transformers/models/vit/modeling_vit.py
@@ -439,7 +439,7 @@ class ViTPreTrainedModel(PreTrainedModel):
    base_model_prefix = "vit"
    main_input_name = "pixel_values"
    supports_gradient_checkpointing = True
-    _no_split_modules = []
+    _no_split_modules = ["ViTEmbeddings", "ViTLayer"]
    def _init_weights(self, module: Union[nn.Linear, nn.Conv2d, nn.LayerNorm]) -> None:
        """Initialize the weights"""

--- a/src/transformers/models/vit_hybrid/modeling_vit_hybrid.py
+++ b/src/transformers/models/vit_hybrid/modeling_vit_hybrid.py
@@ -458,7 +458,7 @@ class ViTHybridPreTrainedModel(PreTrainedModel):
    base_model_prefix = "vit"
    main_input_name = "pixel_values"
    supports_gradient_checkpointing = True
-    _no_split_modules = []
+    _no_split_modules = ["ViTHybridEmbeddings", "ViTHybridLayer"]
    def _init_weights(self, module: Union[nn.Linear, nn.Conv2d, nn.LayerNorm]) -> None:
        """Initialize the weights"""

--- a/src/transformers/models/xlm_roberta/modeling_xlm_roberta.py
+++ b/src/transformers/models/xlm_roberta/modeling_xlm_roberta.py
@@ -595,7 +595,7 @@ class XLMRobertaPreTrainedModel(PreTrainedModel):
    config_class = XLMRobertaConfig
    base_model_prefix = "roberta"
    supports_gradient_checkpointing = True
-    _no_split_modules = []
+    _no_split_modules = ["XLMRobertaEmbeddings", "XLMRobertaSelfAttention"]
    # Copied from transformers.models.bert.modeling_bert.BertPreTrainedModel._init_weights
    def _init_weights(self, module):

--- a/tests/models/clip/test_modeling_clip.py
+++ b/tests/models/clip/test_modeling_clip.py
@@ -353,6 +353,7 @@ class CLIPTextModelTest(ModelTesterMixin, unittest.TestCase):
    fx_compatible = True
    test_pruning = False
    test_head_masking = False
+    model_split_percents = [0.5, 0.8, 0.9]
    def setUp(self):
        self.model_tester = CLIPTextModelTester(self)

--- a/tests/models/clipseg/test_modeling_clipseg.py
+++ b/tests/models/clipseg/test_modeling_clipseg.py
@@ -308,6 +308,7 @@ class CLIPSegTextModelTest(ModelTesterMixin, unittest.TestCase):
    fx_compatible = False
    test_pruning = False
    test_head_masking = False
+    model_split_percents = [0.5, 0.8, 0.9]
    def setUp(self):
        self.model_tester = CLIPSegTextModelTester(self)

--- a/tests/models/data2vec/test_modeling_data2vec_text.py
+++ b/tests/models/data2vec/test_modeling_data2vec_text.py
@@ -388,6 +388,7 @@ class Data2VecTextModelTest(ModelTesterMixin, GenerationTesterMixin, PipelineTes
        if is_torch_available()
        else {}
    )
+    model_split_percents = [0.5, 0.9]
    def setUp(self):
        self.model_tester = Data2VecTextModelTester(self)

--- a/tests/models/esm/test_modeling_esm.py
+++ b/tests/models/esm/test_modeling_esm.py
@@ -192,6 +192,7 @@ class EsmModelTest(ModelTesterMixin, PipelineTesterMixin, unittest.TestCase):
        else {}
    )
    test_sequence_classification_problem_types = True
+    model_split_percents = [0.5, 0.8, 0.9]
    def setUp(self):
        self.model_tester = EsmModelTester(self)

--- a/tests/models/opt/test_modeling_opt.py
+++ b/tests/models/opt/test_modeling_opt.py
@@ -323,6 +323,10 @@ class OPTModelTest(ModelTesterMixin, GenerationTesterMixin, PipelineTesterMixin,
        result = model(input_ids, attention_mask=attention_mask, labels=sequence_labels)
        self.assertEqual(result.logits.shape, (self.model_tester.batch_size, self.model_tester.num_labels))
+    @unittest.skip("Does not work on the tiny model as we keep hitting edge cases.")
+    def test_model_parallelism(self):
+        super().test_model_parallelism()
 def assert_tensors_close(a, b, atol=1e-12, prefix=""):
    """If tensors have different shapes, different values or a and b are not both tensors, raise a nice Assertion error."""

--- a/tests/models/roberta/test_modeling_roberta.py
+++ b/tests/models/roberta/test_modeling_roberta.py
@@ -395,6 +395,7 @@ class RobertaModelTest(ModelTesterMixin, GenerationTesterMixin, PipelineTesterMi
        else {}
    )
    fx_compatible = True
+    model_split_percents = [0.5, 0.8, 0.9]
    def setUp(self):
        self.model_tester = RobertaModelTester(self)