Flax beam search fix (#21857)

5e6cd51b · Andy Ehrenberg · GitHub · b599b192 · 5e6cd51b
Unverified Commit 5e6cd51b authored Mar 01, 2023 by Andy Ehrenberg Committed by GitHub Mar 01, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 8 additions and 6 deletions

src/transformers/generation/flax_utils.py src/transformers/generation/flax_utils.py +8 -6

No files found.
--- a/src/transformers/generation/flax_utils.py
+++ b/src/transformers/generation/flax_utils.py
@@ -448,10 +448,11 @@ class FlaxGenerationMixin:
                    model_kwargs["encoder_outputs"]["last_hidden_state"], num_beams=generation_config.num_beams
                )
-            if "attention_mask" in model_kwargs:
+            for kwarg in ["attention_mask", "decoder_attention_mask"]:
-                model_kwargs["attention_mask"] = self._expand_to_num_beams(
+                if kwarg in model_kwargs:
-                    model_kwargs["attention_mask"], num_beams=generation_config.num_beams
+                    model_kwargs[kwarg] = self._expand_to_num_beams(
-                )
+                        model_kwargs[kwarg], num_beams=generation_config.num_beams
+                    )
            return self._beam_search(
                input_ids,
@@ -821,8 +822,9 @@ class FlaxGenerationMixin:
            model_kwargs["encoder_outputs"]["last_hidden_state"] = flatten_beam_dim(
                model_kwargs["encoder_outputs"]["last_hidden_state"]
            )
-        if "attention_mask" in model_kwargs:
+        for kwarg in ["attention_mask", "decoder_attention_mask"]:
-            model_kwargs["attention_mask"] = flatten_beam_dim(model_kwargs["attention_mask"])
+            if kwarg in model_kwargs:
+                model_kwargs[kwarg] = flatten_beam_dim(model_kwargs[kwarg])
        # initialize model specific kwargs
        model_kwargs = self.prepare_inputs_for_generation(flatten_beam_dim(input_ids), max_length, **model_kwargs)