Fix Seq2seqTrainer decoder attention mask (#26841)

Don't drop decoder_input_ids without also dropping decoder_attention_mask

Fix Seq2seqTrainer decoder attention mask (#26841)
Don't drop decoder_input_ids without also dropping decoder_attention_mask
34678db4 · Matt · GitHub · 280c757f · 34678db4
Unverified Commit 34678db4 authored Oct 18, 2023 by Matt Committed by GitHub Oct 18, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

src/transformers/trainer_seq2seq.py src/transformers/trainer_seq2seq.py +3 -1

No files found.
--- a/src/transformers/trainer_seq2seq.py
+++ b/src/transformers/trainer_seq2seq.py
@@ -288,7 +288,9 @@ class Seq2SeqTrainer(Trainer):
            and "decoder_input_ids" in generation_inputs
            and generation_inputs["labels"].shape == generation_inputs["decoder_input_ids"].shape
        ):
-            generation_inputs = {k: v for k, v in inputs.items() if k != "decoder_input_ids"}
+            generation_inputs = {
+                k: v for k, v in inputs.items() if k not in ("decoder_input_ids", "decoder_attention_mask")
+            }
        generated_tokens = self.model.generate(**generation_inputs, **gen_kwargs)
        # Temporary hack to ensure the generation config is not initialized for each iteration of the evaluation loop