FIX / OPT: Fix OPT multi-GPU training for `OPTForQuestionAnswering` (#31092)

Update modeling_opt.py

FIX / OPT: Fix OPT multi-GPU training for `OPTForQuestionAnswering` (#31092)
Update modeling_opt.py
ab19f907 · Younes Belkada · GitHub · 94d416f0 · ab19f907
Unverified Commit ab19f907 authored May 28, 2024 by Younes Belkada Committed by GitHub May 28, 2024
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

src/transformers/models/opt/modeling_opt.py src/transformers/models/opt/modeling_opt.py +2 -2

No files found.
--- a/src/transformers/models/opt/modeling_opt.py
+++ b/src/transformers/models/opt/modeling_opt.py
@@ -1427,8 +1427,8 @@ class OPTForQuestionAnswering(OPTPreTrainedModel):
                end_positions = end_positions.squeeze(-1)
            # sometimes the start/end positions are outside our model inputs, we ignore these terms
            ignored_index = start_logits.size(1)
-            start_positions = start_positions.clamp(0, ignored_index)
-            end_positions = end_positions.clamp(0, ignored_index)
+            start_positions = start_positions.clamp(0, ignored_index).to(logits.device)
+            end_positions = end_positions.clamp(0, ignored_index).to(logits.device)

            loss_fct = CrossEntropyLoss(ignore_index=ignored_index)
            start_loss = loss_fct(start_logits, start_positions)