[T5] Fix Cross Attention position bias (#4499)

* fix * fix1

[T5] Fix Cross Attention position bias (#4499)
* fix * fix1
a163c9ca · ZhuBaohe · GitHub · 1d690289 · a163c9ca · a163c9ca
Unverified Commit a163c9ca authored May 26, 2020 by ZhuBaohe Committed by GitHub May 26, 2020
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

src/transformers/modeling_t5.py src/transformers/modeling_t5.py +1 -1

src/transformers/modeling_tf_t5.py src/transformers/modeling_tf_t5.py +1 -1

No files found.
--- a/src/transformers/modeling_t5.py
+++ b/src/transformers/modeling_t5.py
@@ -745,7 +745,7 @@ class T5Stack(T5PreTrainedModel):
                # layer_outputs = hidden-states, key-value-states (self-attention weights), (self-attention position bias), (cross-attention weights), (cross-attention position bias)
                position_bias = layer_outputs[3 if self.output_attentions else 2]
                if self.is_decoder and encoder_hidden_states is not None:
-                    encoder_decoder_position_bias = layer_outputs[4 if self.output_attentions else 3]
+                    encoder_decoder_position_bias = layer_outputs[5 if self.output_attentions else 3]
            # append next layer key value states
            present_key_value_states = present_key_value_states + (present_key_value_state,)


--- a/src/transformers/modeling_tf_t5.py
+++ b/src/transformers/modeling_tf_t5.py
@@ -682,7 +682,7 @@ class TFT5MainLayer(tf.keras.layers.Layer):
                # layer_outputs = hidden-states, (self-attention weights), (self-attention position bias), (cross-attention weights), (cross-attention position bias)
                position_bias = layer_outputs[3 if self.output_attentions else 2]
                if self.is_decoder and encoder_hidden_states is not None:
-                    encoder_decoder_position_bias = layer_outputs[4 if self.output_attentions else 3]
+                    encoder_decoder_position_bias = layer_outputs[5 if self.output_attentions else 3]
            # append next layer key value states
            present_key_value_states = present_key_value_states + (present_key_value_state,)