Remove dropout in embedding layer of OPT (#18845)

adbf3a40 · Shijie Wu · GitHub · 36702600 · adbf3a40 · adbf3a40
Unverified Commit adbf3a40 authored Sep 12, 2022 by Shijie Wu Committed by GitHub Sep 12, 2022
3 changed files
--- a/src/transformers/models/opt/modeling_flax_opt.py
+++ b/src/transformers/models/opt/modeling_flax_opt.py
@@ -484,8 +484,6 @@ class FlaxOPTDecoder(nn.Module):
        hidden_states = inputs_embeds + positions
-        hidden_states = self.dropout_layer(hidden_states, deterministic=deterministic)
        hidden_state, all_hidden_states, attentions = self.layers(
            hidden_states,
            attention_mask,

--- a/src/transformers/models/opt/modeling_opt.py
+++ b/src/transformers/models/opt/modeling_opt.py
@@ -637,7 +637,6 @@ class OPTDecoder(OPTPreTrainedModel):
            inputs_embeds = self.project_in(inputs_embeds)
        hidden_states = inputs_embeds + pos_embeds
-        hidden_states = nn.functional.dropout(hidden_states, p=self.dropout, training=self.training)
        # decoder layers
        all_hidden_states = () if output_hidden_states else None

--- a/src/transformers/models/opt/modeling_tf_opt.py
+++ b/src/transformers/models/opt/modeling_tf_opt.py
@@ -652,7 +652,6 @@ class TFOPTDecoder(tf.keras.layers.Layer):
            inputs_embeds = self.project_in(inputs_embeds)
        hidden_states = inputs_embeds + pos_embeds
-        hidden_states = self.dropout(hidden_states, training=training)
        # decoder layers
        all_hidden_states = () if output_hidden_states else None