[Flax BERT] Update deprecated 'split' method (#28012)

* [Flax BERT] Update deprecated 'split' method * fix copies

[Flax BERT] Update deprecated 'split' method (#28012)
* [Flax BERT] Update deprecated 'split' method * fix copies
7e876dca · Sanchit Gandhi · GitHub · e737446e · 7e876dca · 7e876dca
Unverified Commit 7e876dca authored Dec 15, 2023 by Sanchit Gandhi Committed by GitHub Dec 15, 2023
4 changed files
--- a/src/transformers/models/bert/modeling_flax_bert.py
+++ b/src/transformers/models/bert/modeling_flax_bert.py
@@ -1569,7 +1569,7 @@ class FlaxBertForQuestionAnsweringModule(nn.Module):
        hidden_states = outputs[0]

        logits = self.qa_outputs(hidden_states)
-        start_logits, end_logits = logits.split(self.config.num_labels, axis=-1)
+        start_logits, end_logits = jnp.split(logits, self.config.num_labels, axis=-1)
        start_logits = start_logits.squeeze(-1)
        end_logits = end_logits.squeeze(-1)


--- a/src/transformers/models/roberta/modeling_flax_roberta.py
+++ b/src/transformers/models/roberta/modeling_flax_roberta.py
@@ -1344,7 +1344,7 @@ class FlaxRobertaForQuestionAnsweringModule(nn.Module):
        hidden_states = outputs[0]

        logits = self.qa_outputs(hidden_states)
-        start_logits, end_logits = logits.split(self.config.num_labels, axis=-1)
+        start_logits, end_logits = jnp.split(logits, self.config.num_labels, axis=-1)
        start_logits = start_logits.squeeze(-1)
        end_logits = end_logits.squeeze(-1)


--- a/src/transformers/models/roberta_prelayernorm/modeling_flax_roberta_prelayernorm.py
+++ b/src/transformers/models/roberta_prelayernorm/modeling_flax_roberta_prelayernorm.py
@@ -1365,7 +1365,7 @@ class FlaxRobertaPreLayerNormForQuestionAnsweringModule(nn.Module):
        hidden_states = outputs[0]

        logits = self.qa_outputs(hidden_states)
-        start_logits, end_logits = logits.split(self.config.num_labels, axis=-1)
+        start_logits, end_logits = jnp.split(logits, self.config.num_labels, axis=-1)
        start_logits = start_logits.squeeze(-1)
        end_logits = end_logits.squeeze(-1)


--- a/src/transformers/models/xlm_roberta/modeling_flax_xlm_roberta.py
+++ b/src/transformers/models/xlm_roberta/modeling_flax_xlm_roberta.py
@@ -1359,7 +1359,7 @@ class FlaxXLMRobertaForQuestionAnsweringModule(nn.Module):
        hidden_states = outputs[0]

        logits = self.qa_outputs(hidden_states)
-        start_logits, end_logits = logits.split(self.config.num_labels, axis=-1)
+        start_logits, end_logits = jnp.split(logits, self.config.num_labels, axis=-1)
        start_logits = start_logits.squeeze(-1)
        end_logits = end_logits.squeeze(-1)