Cleanup some config attributes (#20554)

* Remove is_encoder_decoder from some vision models * cleanup more * cleanup more Co-authored-by: ydshieh <ydshieh@users.noreply.github.com>

Cleanup some config attributes (#20554)
* Remove is_encoder_decoder from some vision models * cleanup more * cleanup more Co-authored-by: ydshieh <ydshieh@users.noreply.github.com>
9ffbed26 · Yih-Dar · GitHub · e1782653 · 9ffbed26 · 9ffbed26
Unverified Commit 9ffbed26 authored Dec 05, 2022 by Yih-Dar Committed by GitHub Dec 05, 2022
17 changed files
--- a/src/transformers/models/beit/configuration_beit.py
+++ b/src/transformers/models/beit/configuration_beit.py
@@ -129,7 +129,6 @@ class BeitConfig(PretrainedConfig):
        attention_probs_dropout_prob=0.0,
        initializer_range=0.02,
        layer_norm_eps=1e-12,
-        is_encoder_decoder=False,
        image_size=224,
        patch_size=16,
        num_channels=3,

--- a/src/transformers/models/big_bird/configuration_big_bird.py
+++ b/src/transformers/models/big_bird/configuration_big_bird.py
@@ -119,7 +119,6 @@ class BigBirdConfig(PretrainedConfig):
        initializer_range=0.02,
        layer_norm_eps=1e-12,
        use_cache=True,
-        is_encoder_decoder=False,
        pad_token_id=0,
        bos_token_id=1,
        eos_token_id=2,
@@ -153,7 +152,6 @@ class BigBirdConfig(PretrainedConfig):
        self.type_vocab_size = type_vocab_size
        self.layer_norm_eps = layer_norm_eps
        self.use_cache = use_cache
-        self.is_encoder_decoder = is_encoder_decoder
        self.rescale_embeddings = rescale_embeddings
        self.attention_type = attention_type

--- a/src/transformers/models/canine/configuration_canine.py
+++ b/src/transformers/models/canine/configuration_canine.py
@@ -105,7 +105,6 @@ class CanineConfig(PretrainedConfig):
        initializer_range=0.02,
        layer_norm_eps=1e-12,
        use_cache=True,
-        is_encoder_decoder=False,
        pad_token_id=0,
        bos_token_id=0xE000,
        eos_token_id=0xE001,

--- a/src/transformers/models/convbert/configuration_convbert.py
+++ b/src/transformers/models/convbert/configuration_convbert.py
@@ -102,7 +102,6 @@ class ConvBertConfig(PretrainedConfig):
        self,
        vocab_size=30522,
        hidden_size=768,
-        is_encoder_decoder=False,
        num_hidden_layers=12,
        num_attention_heads=12,
        intermediate_size=3072,
@@ -125,7 +124,6 @@ class ConvBertConfig(PretrainedConfig):
    ):
        super().__init__(
            pad_token_id=pad_token_id,
-            is_encoder_decoder=is_encoder_decoder,
            bos_token_id=bos_token_id,
            eos_token_id=eos_token_id,
            **kwargs,

--- a/src/transformers/models/convnext/configuration_convnext.py
+++ b/src/transformers/models/convnext/configuration_convnext.py
@@ -90,7 +90,6 @@ class ConvNextConfig(PretrainedConfig):
        hidden_act="gelu",
        initializer_range=0.02,
        layer_norm_eps=1e-12,
-        is_encoder_decoder=False,
        layer_scale_init_value=1e-6,
        drop_path_rate=0.0,
        image_size=224,

--- a/src/transformers/models/data2vec/configuration_data2vec_vision.py
+++ b/src/transformers/models/data2vec/configuration_data2vec_vision.py
@@ -128,7 +128,6 @@ class Data2VecVisionConfig(PretrainedConfig):
        attention_probs_dropout_prob=0.0,
        initializer_range=0.02,
        layer_norm_eps=1e-12,
-        is_encoder_decoder=False,
        image_size=224,
        patch_size=16,
        num_channels=3,

--- a/src/transformers/models/deit/configuration_deit.py
+++ b/src/transformers/models/deit/configuration_deit.py
@@ -104,7 +104,6 @@ class DeiTConfig(PretrainedConfig):
        attention_probs_dropout_prob=0.0,
        initializer_range=0.02,
        layer_norm_eps=1e-12,
-        is_encoder_decoder=False,
        image_size=224,
        patch_size=16,
        num_channels=3,

--- a/src/transformers/models/glpn/configuration_glpn.py
+++ b/src/transformers/models/glpn/configuration_glpn.py
@@ -109,7 +109,6 @@ class GLPNConfig(PretrainedConfig):
        initializer_range=0.02,
        drop_path_rate=0.1,
        layer_norm_eps=1e-6,
-        is_encoder_decoder=False,
        decoder_hidden_size=64,
        max_depth=10,
        head_in_index=-1,

--- a/src/transformers/models/perceiver/configuration_perceiver.py
+++ b/src/transformers/models/perceiver/configuration_perceiver.py
@@ -136,7 +136,6 @@ class PerceiverConfig(PretrainedConfig):
        position_embedding_init_scale=0.02,
        initializer_range=0.02,
        layer_norm_eps=1e-12,
-        is_encoder_decoder=False,
        use_query_residual=True,
        vocab_size=262,
        max_position_embeddings=2048,

--- a/src/transformers/models/qdqbert/configuration_qdqbert.py
+++ b/src/transformers/models/qdqbert/configuration_qdqbert.py
@@ -100,7 +100,6 @@ class QDQBertConfig(PretrainedConfig):
        initializer_range=0.02,
        layer_norm_eps=1e-12,
        use_cache=True,
-        is_encoder_decoder=False,
        pad_token_id=1,
        bos_token_id=0,
        eos_token_id=2,

--- a/src/transformers/models/rembert/configuration_rembert.py
+++ b/src/transformers/models/rembert/configuration_rembert.py
@@ -111,7 +111,6 @@ class RemBertConfig(PretrainedConfig):
        initializer_range=0.02,
        layer_norm_eps=1e-12,
        use_cache=True,
-        is_encoder_decoder=False,
        pad_token_id=0,
        bos_token_id=312,
        eos_token_id=313,

--- a/src/transformers/models/segformer/configuration_segformer.py
+++ b/src/transformers/models/segformer/configuration_segformer.py
@@ -121,7 +121,6 @@ class SegformerConfig(PretrainedConfig):
        drop_path_rate=0.1,
        layer_norm_eps=1e-6,
        decoder_hidden_size=256,
-        is_encoder_decoder=False,
        semantic_loss_ignore_index=255,
        **kwargs
    ):

--- a/src/transformers/models/trajectory_transformer/configuration_trajectory_transformer.py
+++ b/src/transformers/models/trajectory_transformer/configuration_trajectory_transformer.py
@@ -136,7 +136,6 @@ class TrajectoryTransformerConfig(PretrainedConfig):
        layer_norm_eps=1e-12,
        kaiming_initializer_range=1,
        use_cache=True,
-        is_encoder_decoder=False,
        pad_token_id=1,
        bos_token_id=50256,
        eos_token_id=50256,

--- a/src/transformers/models/vilt/configuration_vilt.py
+++ b/src/transformers/models/vilt/configuration_vilt.py
@@ -113,7 +113,6 @@ class ViltConfig(PretrainedConfig):
        attention_probs_dropout_prob=0.0,
        initializer_range=0.02,
        layer_norm_eps=1e-12,
-        is_encoder_decoder=False,
        image_size=384,
        patch_size=32,
        num_channels=3,

--- a/src/transformers/models/vit/configuration_vit.py
+++ b/src/transformers/models/vit/configuration_vit.py
@@ -101,7 +101,6 @@ class ViTConfig(PretrainedConfig):
        attention_probs_dropout_prob=0.0,
        initializer_range=0.02,
        layer_norm_eps=1e-12,
-        is_encoder_decoder=False,
        image_size=224,
        patch_size=16,
        num_channels=3,

--- a/src/transformers/models/vit_mae/configuration_vit_mae.py
+++ b/src/transformers/models/vit_mae/configuration_vit_mae.py
@@ -106,7 +106,6 @@ class ViTMAEConfig(PretrainedConfig):
        attention_probs_dropout_prob=0.0,
        initializer_range=0.02,
        layer_norm_eps=1e-12,
-        is_encoder_decoder=False,
        image_size=224,
        patch_size=16,
        num_channels=3,

--- a/templates/adding_a_new_model/cookiecutter-template-{{cookiecutter.modelname}}/configuration_{{cookiecutter.lowercase_modelname}}.py
+++ b/templates/adding_a_new_model/cookiecutter-template-{{cookiecutter.modelname}}/configuration_{{cookiecutter.lowercase_modelname}}.py
@@ -163,7 +163,6 @@ class {{cookiecutter.camelcase_modelname}}Config(PretrainedConfig):
        initializer_range=0.02,
        layer_norm_eps=1e-12,
        use_cache=True,
-        is_encoder_decoder=False,
        {% else -%}
        vocab_size=50265,
        max_position_embeddings=1024,