fix: #14486 do not use BertPooler in DPR (#15068)

* fix: #14486 do not use BertPooler in DPR * fix tf dpr as well * finish Co-authored-by: Patrick von Platen <patrick.v.platen@gmail.com>

fix: #14486 do not use BertPooler in DPR (#15068)
* fix: #14486 do not use BertPooler in DPR * fix tf dpr as well * finish Co-authored-by: Patrick von Platen <patrick.v.platen@gmail.com>
7b3d4df4 · PaulLerner · GitHub · 74bec986 · 7b3d4df4 · 7b3d4df4
Unverified Commit 7b3d4df4 authored Jan 18, 2022 by PaulLerner Committed by GitHub Jan 18, 2022
Showing with 6 additions and 5 deletions

src/transformers/models/dpr/modeling_dpr.py src/transformers/models/dpr/modeling_dpr.py +3 -2

src/transformers/models/dpr/modeling_tf_dpr.py src/transformers/models/dpr/modeling_tf_dpr.py +3 -3

No files found.
--- a/src/transformers/models/dpr/modeling_dpr.py
+++ b/src/transformers/models/dpr/modeling_dpr.py
@@ -175,7 +175,7 @@ class DPREncoder(DPRPreTrainedModel):
    def __init__(self, config: DPRConfig):
        super().__init__(config)
-        self.bert_model = BertModel(config)
+        self.bert_model = BertModel(config, add_pooling_layer=False)
        assert self.bert_model.config.hidden_size > 0, "Encoder hidden_size can't be zero"
        self.projection_dim = config.projection_dim
        if self.projection_dim > 0:
@@ -202,8 +202,9 @@ class DPREncoder(DPRPreTrainedModel):
            output_hidden_states=output_hidden_states,
            return_dict=return_dict,
        )
-        sequence_output, pooled_output = outputs[:2]
+        sequence_output = outputs[0]
        pooled_output = sequence_output[:, 0, :]
        if self.projection_dim > 0:
            pooled_output = self.encode_proj(pooled_output)

--- a/src/transformers/models/dpr/modeling_tf_dpr.py
+++ b/src/transformers/models/dpr/modeling_tf_dpr.py
@@ -152,7 +152,7 @@ class TFDPREncoderLayer(tf.keras.layers.Layer):
        super().__init__(**kwargs)
        # resolve name conflict with TFBertMainLayer instead of TFBertModel
-        self.bert_model = TFBertMainLayer(config, name="bert_model")
+        self.bert_model = TFBertMainLayer(config, add_pooling_layer=False, name="bert_model")
        self.config = config
        assert self.config.hidden_size > 0, "Encoder hidden_size can't be zero"
@@ -198,13 +198,13 @@ class TFDPREncoderLayer(tf.keras.layers.Layer):
            training=inputs["training"],
        )
-        sequence_output, pooled_output = outputs[:2]
+        sequence_output = outputs[0]
        pooled_output = sequence_output[:, 0, :]
        if self.projection_dim > 0:
            pooled_output = self.encode_proj(pooled_output)
        if not inputs["return_dict"]:
-            return (sequence_output, pooled_output) + outputs[2:]
+            return (sequence_output, pooled_output) + outputs[1:]
        return TFBaseModelOutputWithPooling(
            last_hidden_state=sequence_output,