Switch `return_dict` to `True` by default. (#8530)

* Use the CI to identify failing tests * Remove from all examples and tests * More default switch * Fixes * More test fixes * More fixes * Last fixes hopefully * Use the CI to identify failing tests * Remove from all examples and tests * More default switch * Fixes * More test fixes * More fixes * Last fixes hopefully * Run on the real suite * Fix slow tests

Switch `return_dict` to `True` by default. (#8530)
* Use the CI to identify failing tests * Remove from all examples and tests * More default switch * Fixes * More test fixes * More fixes * Last fixes hopefully * Use the CI to identify failing tests * Remove from all examples and tests * More default switch * Fixes * More test fixes * More fixes * Last fixes hopefully * Run on the real suite * Fix slow tests
1073a2bd · Sylvain Gugger · GitHub · 0d0a0785 · 1073a2bd · 1073a2bd
Unverified Commit 1073a2bd authored Nov 16, 2020 by Sylvain Gugger Committed by GitHub Nov 16, 2020
20 changed files
--- a/tests/test_modeling_t5.py
+++ b/tests/test_modeling_t5.py
@@ -115,7 +115,6 @@ class T5ModelTester:
            bos_token_id=self.pad_token_id,
            pad_token_id=self.pad_token_id,
            decoder_start_token_id=self.decoder_start_token_id,
-            return_dict=True,
        )

        return (

--- a/tests/test_modeling_tf_albert.py
+++ b/tests/test_modeling_tf_albert.py
@@ -121,7 +121,6 @@ class TFAlbertModelTester:
            max_position_embeddings=self.max_position_embeddings,
            type_vocab_size=self.type_vocab_size,
            initializer_range=self.initializer_range,
-            return_dict=True,
        )

        return config, input_ids, token_type_ids, input_mask, sequence_labels, token_labels, choice_labels

--- a/tests/test_modeling_tf_bart.py
+++ b/tests/test_modeling_tf_bart.py
@@ -182,7 +182,6 @@ class TFBartHeadTests(unittest.TestCase):
            eos_token_id=2,
            pad_token_id=1,
            bos_token_id=0,
-            return_dict=True,
            decoder_start_token_id=2,
        )
        return config, input_ids, batch_size
@@ -206,7 +205,6 @@ class TFBartHeadTests(unittest.TestCase):
            encoder_ffn_dim=32,
            decoder_ffn_dim=32,
            max_position_embeddings=48,
-            return_dict=True,
        )
        lm_model = TFBartForConditionalGeneration(config)
        context = tf.fill((7, 2), 4)
@@ -356,7 +354,7 @@ class FasterTFBartModelIntegrationTests(unittest.TestCase):
            padding="longest",
            truncation=True,
        )
-        features = self.xsum_1_1_model.get_encoder()(**batch, return_dict=True).last_hidden_state
+        features = self.xsum_1_1_model.get_encoder()(**batch).last_hidden_state
        import numpy as np

        expected = np.array([[-0.0828, -0.0251, -0.0674], [0.1277, 0.3311, -0.0255], [0.2613, -0.0840, -0.2763]])

--- a/tests/test_modeling_tf_bert.py
+++ b/tests/test_modeling_tf_bert.py
@@ -120,7 +120,6 @@ class TFBertModelTester:
            max_position_embeddings=self.max_position_embeddings,
            type_vocab_size=self.type_vocab_size,
            initializer_range=self.initializer_range,
-            return_dict=True,
        )

        return config, input_ids, token_type_ids, input_mask, sequence_labels, token_labels, choice_labels

--- a/tests/test_modeling_tf_camembert.py
+++ b/tests/test_modeling_tf_camembert.py
@@ -39,7 +39,7 @@ class TFCamembertModelIntegrationTest(unittest.TestCase):
            dtype=tf.int32,
        )  # J'aime le camembert !"

-        output = model(input_ids, return_dict=True)["last_hidden_state"]
+        output = model(input_ids)["last_hidden_state"]
        expected_shape = tf.TensorShape((1, 10, 768))
        self.assertEqual(output.shape, expected_shape)
        # compare the actual values for a slice.

--- a/tests/test_modeling_tf_common.py
+++ b/tests/test_modeling_tf_common.py
@@ -284,7 +284,7 @@ class TFModelTesterMixin:
        if isinstance(after_outputs, tf.Tensor):
            out_1 = after_outputs.numpy()
        elif isinstance(after_outputs, dict):
-            out_1 = after_outputs[list(after_outputs.keys())[0]]
+            out_1 = after_outputs[list(after_outputs.keys())[0]].numpy()
        else:
            out_1 = after_outputs[0].numpy()
        out_2 = outputs[0].numpy()

--- a/tests/test_modeling_tf_ctrl.py
+++ b/tests/test_modeling_tf_ctrl.py
@@ -94,7 +94,6 @@ class TFCTRLModelTester(object):
            n_ctx=self.max_position_embeddings,
            # type_vocab_size=self.type_vocab_size,
            # initializer_range=self.initializer_range,
-            return_dict=True,
        )

        head_mask = ids_tensor([self.num_hidden_layers, self.num_attention_heads], 2)

--- a/tests/test_modeling_tf_distilbert.py
+++ b/tests/test_modeling_tf_distilbert.py
@@ -91,7 +91,6 @@ class TFDistilBertModelTester:
            attention_dropout=self.attention_probs_dropout_prob,
            max_position_embeddings=self.max_position_embeddings,
            initializer_range=self.initializer_range,
-            return_dict=True,
        )

        return config, input_ids, input_mask, sequence_labels, token_labels, choice_labels

--- a/tests/test_modeling_tf_electra.py
+++ b/tests/test_modeling_tf_electra.py
@@ -97,7 +97,6 @@ class TFElectraModelTester:
            max_position_embeddings=self.max_position_embeddings,
            type_vocab_size=self.type_vocab_size,
            initializer_range=self.initializer_range,
-            return_dict=True,
        )

        return config, input_ids, token_type_ids, input_mask, sequence_labels, token_labels, choice_labels

--- a/tests/test_modeling_tf_flaubert.py
+++ b/tests/test_modeling_tf_flaubert.py
@@ -114,7 +114,6 @@ class TFFlaubertModelTester:
            summary_type=self.summary_type,
            use_proj=self.use_proj,
            bos_token_id=self.bos_token_id,
-            return_dict=True,
        )

        return (

--- a/tests/test_modeling_tf_funnel.py
+++ b/tests/test_modeling_tf_funnel.py
@@ -137,7 +137,6 @@ class TFFunnelModelTester:
            activation_dropout=self.activation_dropout,
            max_position_embeddings=self.max_position_embeddings,
            type_vocab_size=self.type_vocab_size,
-            return_dict=True,
        )

        return (

--- a/tests/test_modeling_tf_gpt2.py
+++ b/tests/test_modeling_tf_gpt2.py
@@ -104,7 +104,6 @@ class TFGPT2ModelTester:
            # initializer_range=self.initializer_range
            bos_token_id=self.bos_token_id,
            eos_token_id=self.eos_token_id,
-            return_dict=True,
        )

        head_mask = ids_tensor([self.num_hidden_layers, self.num_attention_heads], 2)

--- a/tests/test_modeling_tf_longformer.py
+++ b/tests/test_modeling_tf_longformer.py
@@ -594,7 +594,9 @@ class TFLongformerModelIntegrationTest(unittest.TestCase):
        # 'Hello world! ' repeated 1000 times
        input_ids = tf.convert_to_tensor([[0] + [20920, 232, 328, 1437] * 1000 + [2]], dtype=tf.dtypes.int32)

-        loss, prediction_scores = model(input_ids, labels=input_ids)
+        output = model(input_ids, labels=input_ids)
+        loss = output.loss
+        prediction_scores = output.logits

        expected_loss = tf.constant(0.0073798)
        expected_prediction_scores_sum = tf.constant(-610476600.0)

--- a/tests/test_modeling_tf_lxmert.py
+++ b/tests/test_modeling_tf_lxmert.py
@@ -297,7 +297,6 @@ class TFLxmertModelTester(object):
            matched_label=matched_label,
            ans=ans,
            output_attentions=output_attentions,
-            return_dict=True,
        )
        result = model(
            input_ids,
@@ -352,7 +351,6 @@ class TFLxmertModelTester(object):
            matched_label=matched_label,
            ans=ans,
            output_attentions=not output_attentions,
-            return_dict=True,
        )

        self.parent.assertEqual(result.prediction_logits.shape, (self.batch_size, self.seq_length, self.vocab_size))
@@ -695,7 +693,8 @@ class TFLxmertModelTest(TFModelTesterMixin, unittest.TestCase):
                model = tf.keras.models.load_model(tmpdirname)
                outputs = model(class_inputs_dict)

-                language_hidden_states, vision_hidden_states = outputs[-2], outputs[-1]
+                language_hidden_states = outputs["language_hidden_states"]
+                vision_hidden_states = outputs["vision_hidden_states"]

                self.assertEqual(len(language_hidden_states), self.model_tester.num_hidden_layers["language"] + 1)
                self.assertEqual(len(vision_hidden_states), self.model_tester.num_hidden_layers["vision"] + 1)
@@ -731,11 +730,9 @@ class TFLxmertModelTest(TFModelTesterMixin, unittest.TestCase):
                model = tf.keras.models.load_model(tmpdirname)
                outputs = model(class_inputs_dict)

-                language_attentions, vision_attentions, cross_encoder_attentions = (
-                    outputs[-3],
-                    outputs[-2],
-                    outputs[-1],
-                )
+                language_attentions = outputs["language_attentions"]
+                vision_attentions = outputs["vision_attentions"]
+                cross_encoder_attentions = outputs["cross_encoder_attentions"]

                self.assertEqual(len(language_attentions), self.model_tester.num_hidden_layers["language"])
                self.assertEqual(len(vision_attentions), self.model_tester.num_hidden_layers["vision"])

--- a/tests/test_modeling_tf_mobilebert.py
+++ b/tests/test_modeling_tf_mobilebert.py
@@ -139,7 +139,6 @@ class TFMobileBertModelTest(TFModelTesterMixin, unittest.TestCase):
                type_vocab_size=self.type_vocab_size,
                initializer_range=self.initializer_range,
                embedding_size=self.embedding_size,
-                return_dict=True,
            )

            return config, input_ids, token_type_ids, input_mask, sequence_labels, token_labels, choice_labels

--- a/tests/test_modeling_tf_openai.py
+++ b/tests/test_modeling_tf_openai.py
@@ -99,7 +99,6 @@ class TFOpenAIGPTModelTester:
            n_ctx=self.max_position_embeddings,
            # type_vocab_size=self.type_vocab_size,
            # initializer_range=self.initializer_range,
-            return_dict=True,
        )

        head_mask = ids_tensor([self.num_hidden_layers, self.num_attention_heads], 2)

--- a/tests/test_modeling_tf_roberta.py
+++ b/tests/test_modeling_tf_roberta.py
@@ -97,7 +97,6 @@ class TFRobertaModelTester:
            max_position_embeddings=self.max_position_embeddings,
            type_vocab_size=self.type_vocab_size,
            initializer_range=self.initializer_range,
-            return_dict=True,
        )

        return config, input_ids, token_type_ids, input_mask, sequence_labels, token_labels, choice_labels

--- a/tests/test_modeling_tf_t5.py
+++ b/tests/test_modeling_tf_t5.py
@@ -78,7 +78,6 @@ class TFT5ModelTester:
            bos_token_id=self.pad_token_id,
            pad_token_id=self.pad_token_id,
            decoder_start_token_id=self.pad_token_id,
-            return_dict=True,
        )

        return (config, input_ids, input_mask, token_labels)

--- a/tests/test_modeling_tf_transfo_xl.py
+++ b/tests/test_modeling_tf_transfo_xl.py
@@ -77,7 +77,6 @@ class TFTransfoXLModelTester:
            div_val=self.div_val,
            n_layer=self.num_hidden_layers,
            eos_token_id=self.eos_token_id,
-            return_dict=True,
        )

        return (config, input_ids_1, input_ids_2, lm_labels)

--- a/tests/test_modeling_tf_xlm.py
+++ b/tests/test_modeling_tf_xlm.py
@@ -114,7 +114,6 @@ class TFXLMModelTester:
            summary_type=self.summary_type,
            use_proj=self.use_proj,
            bos_token_id=self.bos_token_id,
-            return_dict=True,
        )

        return (