[`T5`] Enable naive Pipeline Parallelism training for T5 (#22535)

* enable PP for T5 * make fixup * fix failing tests

[`T5`] Enable naive Pipeline Parallelism training for T5 (#22535)
* enable PP for T5 * make fixup * fix failing tests
d7a4f5be · Younes Belkada · GitHub · cab048fb · d7a4f5be · d7a4f5be
Unverified Commit d7a4f5be authored Apr 03, 2023 by Younes Belkada Committed by GitHub Apr 03, 2023
Showing with 4 additions and 0 deletions

src/transformers/models/mt5/modeling_mt5.py src/transformers/models/mt5/modeling_mt5.py +2 -0

src/transformers/models/t5/modeling_t5.py src/transformers/models/t5/modeling_t5.py +2 -0

No files found.
--- a/src/transformers/models/mt5/modeling_mt5.py
+++ b/src/transformers/models/mt5/modeling_mt5.py
@@ -1778,6 +1778,8 @@ class MT5ForConditionalGeneration(MT5PreTrainedModel):
        loss = None
        if labels is not None:
            loss_fct = CrossEntropyLoss(ignore_index=-100)
+            # move labels to correct device to enable PP
+            labels = labels.to(lm_logits.device)
            loss = loss_fct(lm_logits.view(-1, lm_logits.size(-1)), labels.view(-1))
            # TODO(thom): Add z_loss https://github.com/tensorflow/mesh/blob/fa19d69eafc9a482aff0b59ddd96b025c0cb207d/mesh_tensorflow/layers.py#L666


--- a/src/transformers/models/t5/modeling_t5.py
+++ b/src/transformers/models/t5/modeling_t5.py
@@ -1746,6 +1746,8 @@ class T5ForConditionalGeneration(T5PreTrainedModel):
        loss = None
        if labels is not None:
            loss_fct = CrossEntropyLoss(ignore_index=-100)
+            # move labels to correct device to enable PP
+            labels = labels.to(lm_logits.device)
            loss = loss_fct(lm_logits.view(-1, lm_logits.size(-1)), labels.view(-1))
            # TODO(thom): Add z_loss https://github.com/tensorflow/mesh/blob/fa19d69eafc9a482aff0b59ddd96b025c0cb207d/mesh_tensorflow/layers.py#L666