Update model configs - Allow setters for common properties (#13026)

* refactor GPT Config to allow dyn. properties * make attribute_map a class attribute * remove old code * update unit test to test config: Add test for common properties setter * update unit test to test config: Add test for common properties passed as parameters to __init__ * update to black code format * Allow that setters are not defined for certain config classes * update config classes to implement attribute_map * bugfix lxmert config - id2labels was not defined when num_labels was set * update broken configs - add attribute_maps * update bart config * update black codestyle * update documentation on common config attributes * update GPTJ config to new attribute map * update docs on common attributes * gptj config: add max_position_embeddings * gptj config: format with black * update speech to text 2 config * format doc file to max_len 119 * update config template

Update model configs - Allow setters for common properties (#13026)
* refactor GPT Config to allow dyn. properties * make attribute_map a class attribute * remove old code * update unit test to test config: Add test for common properties setter * update unit test to test config: Add test for common properties passed as parameters to __init__ * update to black code format * Allow that setters are not defined for certain config classes * update config classes to implement attribute_map * bugfix lxmert config - id2labels was not defined when num_labels was set * update broken configs - add attribute_maps * update bart config * update black codestyle * update documentation on common config attributes * update GPTJ config to new attribute map * update docs on common attributes * gptj config: add max_position_embeddings * gptj config: format with black * update speech to text 2 config * format doc file to max_len 119 * update config template
c8be8a9a · Nils Reimers · GitHub · cf4eb8b3 · c8be8a9a · c8be8a9a
Unverified Commit c8be8a9a authored Sep 06, 2021 by Nils Reimers Committed by GitHub Sep 06, 2021
20 changed files
--- a/docs/source/main_classes/configuration.rst
+++ b/docs/source/main_classes/configuration.rst
@@ -17,6 +17,11 @@ The base class :class:`~transformers.PretrainedConfig` implements the common met
 either from a local file or directory, or from a pretrained model configuration provided by the library (downloaded
 from HuggingFace's AWS S3 repository).
+Each derived config class implements model specific attributes. Common attributes present in all config classes are:
+:obj:`hidden_size`, :obj:`num_attention_heads`, and :obj:`num_hidden_layers`. Text models further implement:
+:obj:`vocab_size`.
 PretrainedConfig
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

--- a/src/transformers/configuration_utils.py
+++ b/src/transformers/configuration_utils.py
@@ -57,6 +57,8 @@ class PretrainedConfig(PushToHubMixin):
          :class:`~RagConfig`.
        - **keys_to_ignore_at_inference** (:obj:`List[str]`) -- A list of keys to ignore by default when looking at
          dictionary outputs of the model during inference.
+        - **attribute_map** (:obj:`Dict[str, str]`) -- A dict that maps model specific attribute names to the
+          standardized naming of attributes.
    Common attributes (present in all subclasses)
@@ -218,6 +220,17 @@ class PretrainedConfig(PushToHubMixin):
    """
    model_type: str = ""
    is_composition: bool = False
+    attribute_map: Dict[str, str] = {}
+    def __setattr__(self, key, value):
+        if key in super().__getattribute__("attribute_map"):
+            key = super().__getattribute__("attribute_map")[key]
+        super().__setattr__(key, value)
+    def __getattribute__(self, key):
+        if key != "attribute_map" and key in super().__getattribute__("attribute_map"):
+            key = super().__getattribute__("attribute_map")[key]
+        return super().__getattribute__(key)
    def __init__(self, **kwargs):
        # Attributes with defaults
@@ -350,7 +363,7 @@ class PretrainedConfig(PushToHubMixin):
    @num_labels.setter
    def num_labels(self, num_labels: int):
-        if self.id2label is None or len(self.id2label) != num_labels:
+        if not hasattr(self, "id2label") or self.id2label is None or len(self.id2label) != num_labels:
            self.id2label = {i: f"LABEL_{i}" for i in range(num_labels)}
            self.label2id = dict(zip(self.id2label.values(), self.id2label.keys()))

--- a/src/transformers/models/bart/configuration_bart.py
+++ b/src/transformers/models/bart/configuration_bart.py
@@ -109,6 +109,7 @@ class BartConfig(PretrainedConfig):
    """
    model_type = "bart"
    keys_to_ignore_at_inference = ["past_key_values"]
+    attribute_map = {"num_attention_heads": "encoder_attention_heads", "hidden_size": "d_model"}
    def __init__(
        self,
@@ -141,17 +142,6 @@ class BartConfig(PretrainedConfig):
        forced_eos_token_id=2,
        **kwargs
    ):
-        super().__init__(
-            num_labels=num_labels,
-            pad_token_id=pad_token_id,
-            bos_token_id=bos_token_id,
-            eos_token_id=eos_token_id,
-            is_encoder_decoder=is_encoder_decoder,
-            decoder_start_token_id=decoder_start_token_id,
-            forced_eos_token_id=forced_eos_token_id,
-            **kwargs,
-        )
        self.vocab_size = vocab_size
        self.max_position_embeddings = max_position_embeddings
        self.d_model = d_model
@@ -174,6 +164,17 @@ class BartConfig(PretrainedConfig):
        self.gradient_checkpointing = gradient_checkpointing
        self.scale_embedding = scale_embedding  # scale factor will be sqrt(d_model) if True
+        super().__init__(
+            num_labels=num_labels,
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            is_encoder_decoder=is_encoder_decoder,
+            decoder_start_token_id=decoder_start_token_id,
+            forced_eos_token_id=forced_eos_token_id,
+            **kwargs,
+        )
        # ensure backward compatibility for BART CNN models
        if self.forced_bos_token_id is None and kwargs.get("force_bos_token_to_be_generated", False):
            self.forced_bos_token_id = self.bos_token_id
@@ -182,14 +183,6 @@ class BartConfig(PretrainedConfig):
                "The config can simply be saved and uploaded again to be fixed."
            )
-    @property
-    def num_attention_heads(self) -> int:
-        return self.encoder_attention_heads
-    @property
-    def hidden_size(self) -> int:
-        return self.d_model
 class BartOnnxConfig(OnnxConfigWithPast):
    @property

--- a/src/transformers/models/bigbird_pegasus/configuration_bigbird_pegasus.py
+++ b/src/transformers/models/bigbird_pegasus/configuration_bigbird_pegasus.py
@@ -112,6 +112,11 @@ class BigBirdPegasusConfig(PretrainedConfig):
    """
    model_type = "bigbird_pegasus"
    keys_to_ignore_at_inference = ["past_key_values"]
+    attribute_map = {
+        "num_attention_heads": "encoder_attention_heads",
+        "hidden_size": "d_model",
+        "attention_probs_dropout_prob": "attention_dropout",
+    }
    def __init__(
        self,
@@ -146,15 +151,6 @@ class BigBirdPegasusConfig(PretrainedConfig):
        use_bias=False,
        **kwargs
    ):
-        super().__init__(
-            pad_token_id=pad_token_id,
-            bos_token_id=bos_token_id,
-            eos_token_id=eos_token_id,
-            is_encoder_decoder=is_encoder_decoder,
-            decoder_start_token_id=decoder_start_token_id,
-            **kwargs,
-        )
        self.vocab_size = vocab_size
        self.max_position_embeddings = max_position_embeddings
        self.d_model = d_model
@@ -183,14 +179,11 @@ class BigBirdPegasusConfig(PretrainedConfig):
        self.num_random_blocks = num_random_blocks
        self.use_bias = use_bias
-    @property
+        super().__init__(
-    def num_attention_heads(self) -> int:
+            pad_token_id=pad_token_id,
-        return self.encoder_attention_heads
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
-    @property
+            is_encoder_decoder=is_encoder_decoder,
-    def hidden_size(self) -> int:
+            decoder_start_token_id=decoder_start_token_id,
-        return self.d_model
+            **kwargs,
+        )
-    @property
-    def attention_probs_dropout_prob(self) -> float:
-        return self.attention_dropout
--- a/src/transformers/models/blenderbot/configuration_blenderbot.py
+++ b/src/transformers/models/blenderbot/configuration_blenderbot.py
@@ -103,6 +103,7 @@ class BlenderbotConfig(PretrainedConfig):
    """
    model_type = "blenderbot"
    keys_to_ignore_at_inference = ["past_key_values"]
+    attribute_map = {"num_attention_heads": "encoder_attention_heads", "hidden_size": "d_model"}
    def __init__(
        self,
@@ -135,17 +136,6 @@ class BlenderbotConfig(PretrainedConfig):
        forced_eos_token_id=2,
        **kwargs
    ):
-        super().__init__(
-            pad_token_id=pad_token_id,
-            bos_token_id=bos_token_id,
-            eos_token_id=eos_token_id,
-            is_encoder_decoder=is_encoder_decoder,
-            decoder_start_token_id=decoder_start_token_id,
-            encoder_no_repeat_ngram_size=encoder_no_repeat_ngram_size,
-            forced_eos_token_id=forced_eos_token_id,
-            **kwargs,
-        )
        self.vocab_size = vocab_size
        self.max_position_embeddings = max_position_embeddings
        self.d_model = d_model
@@ -168,10 +158,13 @@ class BlenderbotConfig(PretrainedConfig):
        self.gradient_checkpointing = gradient_checkpointing
        self.scale_embedding = scale_embedding  # scale factor will be sqrt(d_model) if True
-    @property
+        super().__init__(
-    def num_attention_heads(self) -> int:
+            pad_token_id=pad_token_id,
-        return self.encoder_attention_heads
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
-    @property
+            is_encoder_decoder=is_encoder_decoder,
-    def hidden_size(self) -> int:
+            decoder_start_token_id=decoder_start_token_id,
-        return self.d_model
+            encoder_no_repeat_ngram_size=encoder_no_repeat_ngram_size,
+            forced_eos_token_id=forced_eos_token_id,
+            **kwargs,
+        )
--- a/src/transformers/models/blenderbot_small/configuration_blenderbot_small.py
+++ b/src/transformers/models/blenderbot_small/configuration_blenderbot_small.py
@@ -103,6 +103,7 @@ class BlenderbotSmallConfig(PretrainedConfig):
    """
    model_type = "blenderbot-small"
    keys_to_ignore_at_inference = ["past_key_values"]
+    attribute_map = {"num_attention_heads": "encoder_attention_heads", "hidden_size": "d_model"}
    def __init__(
        self,
@@ -134,16 +135,6 @@ class BlenderbotSmallConfig(PretrainedConfig):
        forced_eos_token_id=2,
        **kwargs
    ):
-        super().__init__(
-            pad_token_id=pad_token_id,
-            bos_token_id=bos_token_id,
-            eos_token_id=eos_token_id,
-            is_encoder_decoder=is_encoder_decoder,
-            decoder_start_token_id=decoder_start_token_id,
-            forced_eos_token_id=forced_eos_token_id,
-            **kwargs,
-        )
        self.vocab_size = vocab_size
        self.max_position_embeddings = max_position_embeddings
        self.d_model = d_model
@@ -166,10 +157,12 @@ class BlenderbotSmallConfig(PretrainedConfig):
        self.gradient_checkpointing = gradient_checkpointing
        self.scale_embedding = scale_embedding  # scale factor will be sqrt(d_model) if True
-    @property
+        super().__init__(
-    def num_attention_heads(self) -> int:
+            pad_token_id=pad_token_id,
-        return self.encoder_attention_heads
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
-    @property
+            is_encoder_decoder=is_encoder_decoder,
-    def hidden_size(self) -> int:
+            decoder_start_token_id=decoder_start_token_id,
-        return self.d_model
+            forced_eos_token_id=forced_eos_token_id,
+            **kwargs,
+        )
--- a/src/transformers/models/ctrl/configuration_ctrl.py
+++ b/src/transformers/models/ctrl/configuration_ctrl.py
@@ -81,6 +81,12 @@ class CTRLConfig(PretrainedConfig):
    model_type = "ctrl"
    keys_to_ignore_at_inference = ["past_key_values"]
+    attribute_map = {
+        "max_position_embeddings": "n_positions",
+        "hidden_size": "n_embd",
+        "num_attention_heads": "n_head",
+        "num_hidden_layers": "n_layer",
+    }
    def __init__(
        self,
@@ -104,7 +110,6 @@ class CTRLConfig(PretrainedConfig):
        use_cache=True,
        **kwargs
    ):
-        super().__init__(**kwargs)
        self.vocab_size = vocab_size
        self.n_ctx = n_ctx
        self.n_positions = n_positions
@@ -125,18 +130,4 @@ class CTRLConfig(PretrainedConfig):
        self.summary_proj_to_labels = summary_proj_to_labels
        self.use_cache = use_cache
-    @property
+        super().__init__(**kwargs)
-    def max_position_embeddings(self):
-        return self.n_positions
-    @property
-    def hidden_size(self):
-        return self.n_embd
-    @property
-    def num_attention_heads(self):
-        return self.n_head
-    @property
-    def num_hidden_layers(self):
-        return self.n_layer
--- a/src/transformers/models/detr/configuration_detr.py
+++ b/src/transformers/models/detr/configuration_detr.py
@@ -117,6 +117,10 @@ class DetrConfig(PretrainedConfig):
    """
    model_type = "detr"
    keys_to_ignore_at_inference = ["past_key_values"]
+    attribute_map = {
+        "hidden_size": "d_model",
+        "num_attention_heads": "encoder_attention_heads",
+    }
    def __init__(
        self,
@@ -154,8 +158,6 @@ class DetrConfig(PretrainedConfig):
        eos_coefficient=0.1,
        **kwargs
    ):
-        super().__init__(is_encoder_decoder=is_encoder_decoder, **kwargs)
        self.num_queries = num_queries
        self.max_position_embeddings = max_position_embeddings
        self.d_model = d_model
@@ -189,6 +191,7 @@ class DetrConfig(PretrainedConfig):
        self.bbox_loss_coefficient = bbox_loss_coefficient
        self.giou_loss_coefficient = giou_loss_coefficient
        self.eos_coefficient = eos_coefficient
+        super().__init__(is_encoder_decoder=is_encoder_decoder, **kwargs)
    @property
    def num_attention_heads(self) -> int:

--- a/src/transformers/models/distilbert/configuration_distilbert.py
+++ b/src/transformers/models/distilbert/configuration_distilbert.py
@@ -93,6 +93,11 @@ class DistilBertConfig(PretrainedConfig):
        >>> configuration = model.config
    """
    model_type = "distilbert"
+    attribute_map = {
+        "hidden_size": "dim",
+        "num_attention_heads": "n_heads",
+        "num_hidden_layers": "n_layers",
+    }
    def __init__(
        self,
@@ -112,7 +117,6 @@ class DistilBertConfig(PretrainedConfig):
        pad_token_id=0,
        **kwargs
    ):
-        super().__init__(**kwargs, pad_token_id=pad_token_id)
        self.vocab_size = vocab_size
        self.max_position_embeddings = max_position_embeddings
        self.sinusoidal_pos_embds = sinusoidal_pos_embds
@@ -126,18 +130,7 @@ class DistilBertConfig(PretrainedConfig):
        self.initializer_range = initializer_range
        self.qa_dropout = qa_dropout
        self.seq_classif_dropout = seq_classif_dropout
+        super().__init__(**kwargs, pad_token_id=pad_token_id)
-    @property
-    def hidden_size(self):
-        return self.dim
-    @property
-    def num_attention_heads(self):
-        return self.n_heads
-    @property
-    def num_hidden_layers(self):
-        return self.n_layers
 class DistilBertOnnxConfig(OnnxConfig):

--- a/src/transformers/models/flaubert/configuration_flaubert.py
+++ b/src/transformers/models/flaubert/configuration_flaubert.py
@@ -136,6 +136,6 @@ class FlaubertConfig(XLMConfig):
    def __init__(self, layerdrop=0.0, pre_norm=False, pad_token_id=2, bos_token_id=0, **kwargs):
        """Constructs FlaubertConfig."""
-        super().__init__(pad_token_id=pad_token_id, bos_token_id=bos_token_id, **kwargs)
        self.layerdrop = layerdrop
        self.pre_norm = pre_norm
+        super().__init__(pad_token_id=pad_token_id, bos_token_id=bos_token_id, **kwargs)
--- a/src/transformers/models/fsmt/configuration_fsmt.py
+++ b/src/transformers/models/fsmt/configuration_fsmt.py
@@ -124,6 +124,7 @@ class FSMTConfig(PretrainedConfig):
    """
    model_type = "fsmt"
+    attribute_map = {"num_attention_heads": "encoder_attention_heads", "hidden_size": "d_model"}
    # update the defaults from config file
    def __init__(
@@ -161,18 +162,6 @@ class FSMTConfig(PretrainedConfig):
        forced_eos_token_id=2,
        **common_kwargs
    ):
-        if "hidden_size" in common_kwargs:
-            raise ValueError("hidden size is called d_model")
-        super().__init__(
-            pad_token_id=pad_token_id,
-            bos_token_id=bos_token_id,
-            eos_token_id=eos_token_id,
-            decoder_start_token_id=decoder_start_token_id,
-            is_encoder_decoder=is_encoder_decoder,
-            tie_word_embeddings=tie_word_embeddings,
-            forced_eos_token_id=forced_eos_token_id,
-            **common_kwargs,
-        )
        self.langs = langs
        self.src_vocab_size = src_vocab_size
        self.tgt_vocab_size = tgt_vocab_size
@@ -196,6 +185,8 @@ class FSMTConfig(PretrainedConfig):
        self.early_stopping = early_stopping
        self.decoder = DecoderConfig(vocab_size=tgt_vocab_size, bos_token_id=eos_token_id)
+        if "decoder" in common_kwargs:
+            del common_kwargs["decoder"]
        self.scale_embedding = scale_embedding  # scale factor will be sqrt(d_model) if True
@@ -205,14 +196,16 @@ class FSMTConfig(PretrainedConfig):
        self.dropout = dropout
        self.use_cache = use_cache
+        super().__init__(
-    @property
+            pad_token_id=pad_token_id,
-    def num_attention_heads(self) -> int:
+            bos_token_id=bos_token_id,
-        return self.encoder_attention_heads
+            eos_token_id=eos_token_id,
+            decoder_start_token_id=decoder_start_token_id,
-    @property
+            is_encoder_decoder=is_encoder_decoder,
-    def hidden_size(self) -> int:
+            tie_word_embeddings=tie_word_embeddings,
-        return self.d_model
+            forced_eos_token_id=forced_eos_token_id,
+            **common_kwargs,
+        )
    def to_dict(self):
        """

--- a/src/transformers/models/funnel/configuration_funnel.py
+++ b/src/transformers/models/funnel/configuration_funnel.py
@@ -102,6 +102,10 @@ class FunnelConfig(PretrainedConfig):
            Whether or not to apply the pooling only to the query or to query, key and values for the attention layers.
    """
    model_type = "funnel"
+    attribute_map = {
+        "hidden_size": "d_model",
+        "num_attention_heads": "n_head",
+    }
    def __init__(
        self,
@@ -129,8 +133,6 @@ class FunnelConfig(PretrainedConfig):
        pool_q_only=True,
        **kwargs
    ):
-        super().__init__(**kwargs)
        self.vocab_size = vocab_size
        self.block_sizes = block_sizes
        self.block_repeats = [1] * len(block_sizes) if block_repeats is None else block_repeats
@@ -165,18 +167,22 @@ class FunnelConfig(PretrainedConfig):
        self.truncate_seq = truncate_seq
        self.pool_q_only = pool_q_only
-    @property
+        super().__init__(**kwargs)
-    def hidden_size(self):
-        return self.d_model
-    @property
-    def num_attention_heads(self):
-        return self.n_head
    @property
    def num_hidden_layers(self):
        return sum(self.block_sizes)
+    @num_hidden_layers.setter
+    def num_hidden_layers(self, value):
+        raise NotImplementedError(
+            "This model does not support the setting of `num_hidden_layers`. Please set `block_sizes`."
+        )
    @property
    def num_blocks(self):
        return len(self.block_sizes)
+    @num_blocks.setter
+    def num_blocks(self, value):
+        raise NotImplementedError("This model does not support the setting of `num_blocks`. Please set `block_sizes`.")
--- a/src/transformers/models/gpt2/configuration_gpt2.py
+++ b/src/transformers/models/gpt2/configuration_gpt2.py
@@ -130,6 +130,12 @@ class GPT2Config(PretrainedConfig):
    model_type = "gpt2"
    keys_to_ignore_at_inference = ["past_key_values"]
+    attribute_map = {
+        "hidden_size": "n_embd",
+        "max_position_embeddings": "n_positions",
+        "num_attention_heads": "n_head",
+        "num_hidden_layers": "n_layer",
+    }
    def __init__(
        self,
@@ -158,8 +164,6 @@ class GPT2Config(PretrainedConfig):
        eos_token_id=50256,
        **kwargs
    ):
-        super().__init__(bos_token_id=bos_token_id, eos_token_id=eos_token_id, **kwargs)
        self.vocab_size = vocab_size
        self.n_ctx = n_ctx
        self.n_positions = n_positions
@@ -185,21 +189,7 @@ class GPT2Config(PretrainedConfig):
        self.bos_token_id = bos_token_id
        self.eos_token_id = eos_token_id
-    @property
+        super().__init__(bos_token_id=bos_token_id, eos_token_id=eos_token_id, **kwargs)
-    def max_position_embeddings(self):
-        return self.n_positions
-    @property
-    def hidden_size(self):
-        return self.n_embd
-    @property
-    def num_attention_heads(self):
-        return self.n_head
-    @property
-    def num_hidden_layers(self):
-        return self.n_layer
 class GPT2OnnxConfig(OnnxConfigWithPast):

--- a/src/transformers/models/gpt_neo/configuration_gpt_neo.py
+++ b/src/transformers/models/gpt_neo/configuration_gpt_neo.py
@@ -96,6 +96,7 @@ class GPTNeoConfig(PretrainedConfig):
            >>> configuration = model.config
    """
    model_type = "gpt_neo"
+    attribute_map = {"num_attention_heads": "num_heads", "num_hidden_layers": "num_layers"}
    def __init__(
        self,
@@ -124,8 +125,6 @@ class GPTNeoConfig(PretrainedConfig):
        eos_token_id=50256,
        **kwargs
    ):
-        super().__init__(bos_token_id=bos_token_id, eos_token_id=eos_token_id, **kwargs)
        self.vocab_size = vocab_size
        self.max_position_embeddings = max_position_embeddings
        self.hidden_size = hidden_size
@@ -163,6 +162,8 @@ class GPTNeoConfig(PretrainedConfig):
                "Please verify the value of `config.attention_types` argument."
            )
+        super().__init__(bos_token_id=bos_token_id, eos_token_id=eos_token_id, **kwargs)
    @staticmethod
    def expand_attention_types_params(attention_types):
        attentions = []
@@ -171,14 +172,6 @@ class GPTNeoConfig(PretrainedConfig):
                attentions.extend(item[0])
        return attentions
-    @property
-    def num_attention_heads(self):
-        return self.num_heads
-    @property
-    def num_hidden_layers(self):
-        return self.num_layers
 def custom_unfold(input, dimension, size, step):
    """Custom torch.Tensor.unfold implementation to enable the export to ONNX."""

--- a/src/transformers/models/gptj/configuration_gptj.py
+++ b/src/transformers/models/gptj/configuration_gptj.py
@@ -87,6 +87,12 @@ class GPTJConfig(PretrainedConfig):
        >>> configuration = model.config
    """
    model_type = "gptj"
+    attribute_map = {
+        "max_position_embeddings": "n_positions",
+        "hidden_size": "n_embd",
+        "num_attention_heads": "n_head",
+        "num_hidden_layers": "n_layer",
+    }
    def __init__(
        self,
@@ -111,8 +117,6 @@ class GPTJConfig(PretrainedConfig):
        eos_token_id=50256,
        **kwargs
    ):
-        super().__init__(bos_token_id=bos_token_id, eos_token_id=eos_token_id, **kwargs)
        self.vocab_size = vocab_size
        self.n_ctx = n_ctx
        self.n_positions = n_positions
@@ -134,18 +138,4 @@ class GPTJConfig(PretrainedConfig):
        self.bos_token_id = bos_token_id
        self.eos_token_id = eos_token_id
-    @property
+        super().__init__(bos_token_id=bos_token_id, eos_token_id=eos_token_id, **kwargs)
-    def max_position_embeddings(self):
-        return self.n_positions
-    @property
-    def hidden_size(self):
-        return self.n_embd
-    @property
-    def num_attention_heads(self):
-        return self.n_head
-    @property
-    def num_hidden_layers(self):
-        return self.n_layer
--- a/src/transformers/models/led/configuration_led.py
+++ b/src/transformers/models/led/configuration_led.py
@@ -99,6 +99,12 @@ class LEDConfig(PretrainedConfig):
        >>> configuration = model.config
    """
    model_type = "led"
+    attribute_map = {
+        "num_attention_heads": "encoder_attention_heads",
+        "hidden_size": "d_model",
+        "attention_probs_dropout_prob": "attention_dropout",
+        "initializer_range": "init_std",
+    }
    def __init__(
        self,
@@ -130,15 +136,6 @@ class LEDConfig(PretrainedConfig):
        attention_window: Union[List[int], int] = 512,
        **kwargs
    ):
-        super().__init__(
-            pad_token_id=pad_token_id,
-            bos_token_id=bos_token_id,
-            eos_token_id=eos_token_id,
-            is_encoder_decoder=is_encoder_decoder,
-            decoder_start_token_id=decoder_start_token_id,
-            **kwargs,
-        )
        self.vocab_size = vocab_size
        self.max_encoder_position_embeddings = max_encoder_position_embeddings
        self.max_decoder_position_embeddings = max_decoder_position_embeddings
@@ -162,18 +159,11 @@ class LEDConfig(PretrainedConfig):
        self.attention_window = attention_window
        self.gradient_checkpointing = gradient_checkpointing
-    @property
+        super().__init__(
-    def num_attention_heads(self) -> int:
+            pad_token_id=pad_token_id,
-        return self.encoder_attention_heads
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
-    @property
+            is_encoder_decoder=is_encoder_decoder,
-    def hidden_size(self) -> int:
+            decoder_start_token_id=decoder_start_token_id,
-        return self.d_model
+            **kwargs,
+        )
-    @property
-    def attention_probs_dropout_prob(self) -> float:
-        return self.attention_dropout
-    @property
-    def initializer_range(self) -> float:
-        return self.init_std
--- a/src/transformers/models/lxmert/configuration_lxmert.py
+++ b/src/transformers/models/lxmert/configuration_lxmert.py
@@ -113,13 +113,13 @@ class LxmertConfig(PretrainedConfig):
    """
    model_type = "lxmert"
+    attribute_map = {}
    def __init__(
        self,
        vocab_size=30522,
        hidden_size=768,
        num_attention_heads=12,
-        num_labels=2,
        num_qa_labels=9500,
        num_object_labels=1600,
        num_attr_labels=400,
@@ -149,11 +149,9 @@ class LxmertConfig(PretrainedConfig):
        output_hidden_states=False,
        **kwargs,
    ):
-        super().__init__(**kwargs)
        self.vocab_size = vocab_size
        self.hidden_size = hidden_size
        self.num_attention_heads = num_attention_heads
-        self.num_labels = num_labels
        self.hidden_act = hidden_act
        self.intermediate_size = intermediate_size
        self.hidden_dropout_prob = hidden_dropout_prob
@@ -179,5 +177,6 @@ class LxmertConfig(PretrainedConfig):
        self.visual_attr_loss = visual_attr_loss
        self.visual_feat_loss = visual_feat_loss
        self.output_hidden_states = output_hidden_states
-        self.output_attentions = self.output_attentions
+        self.output_attentions = output_attentions
        self.num_hidden_layers = {"vision": r_layers, "cross_encoder": x_layers, "language": l_layers}
+        super().__init__(**kwargs)
--- a/src/transformers/models/m2m_100/configuration_m2m_100.py
+++ b/src/transformers/models/m2m_100/configuration_m2m_100.py
@@ -97,6 +97,7 @@ class M2M100Config(PretrainedConfig):
    """
    model_type = "m2m_100"
    keys_to_ignore_at_inference = ["past_key_values"]
+    attribute_map = {"num_attention_heads": "encoder_attention_heads", "hidden_size": "d_model"}
    def __init__(
        self,
@@ -126,15 +127,6 @@ class M2M100Config(PretrainedConfig):
        eos_token_id=2,
        **kwargs
    ):
-        super().__init__(
-            pad_token_id=pad_token_id,
-            bos_token_id=bos_token_id,
-            eos_token_id=eos_token_id,
-            is_encoder_decoder=is_encoder_decoder,
-            decoder_start_token_id=decoder_start_token_id,
-            **kwargs,
-        )
        self.vocab_size = vocab_size
        self.max_position_embeddings = max_position_embeddings
        self.d_model = d_model
@@ -156,10 +148,11 @@ class M2M100Config(PretrainedConfig):
        self.gradient_checkpointing = gradient_checkpointing
        self.scale_embedding = scale_embedding  # scale factor will be sqrt(d_model) if True
-    @property
+        super().__init__(
-    def num_attention_heads(self) -> int:
+            pad_token_id=pad_token_id,
-        return self.encoder_attention_heads
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
-    @property
+            is_encoder_decoder=is_encoder_decoder,
-    def hidden_size(self) -> int:
+            decoder_start_token_id=decoder_start_token_id,
-        return self.d_model
+            **kwargs,
+        )
--- a/src/transformers/models/marian/configuration_marian.py
+++ b/src/transformers/models/marian/configuration_marian.py
@@ -103,6 +103,7 @@ class MarianConfig(PretrainedConfig):
    """
    model_type = "marian"
    keys_to_ignore_at_inference = ["past_key_values"]
+    attribute_map = {"num_attention_heads": "encoder_attention_heads", "hidden_size": "d_model"}
    def __init__(
        self,
@@ -133,15 +134,6 @@ class MarianConfig(PretrainedConfig):
        forced_eos_token_id=0,
        **kwargs
    ):
-        super().__init__(
-            pad_token_id=pad_token_id,
-            eos_token_id=eos_token_id,
-            is_encoder_decoder=is_encoder_decoder,
-            decoder_start_token_id=decoder_start_token_id,
-            forced_eos_token_id=forced_eos_token_id,
-            **kwargs,
-        )
        self.vocab_size = vocab_size
        self.max_position_embeddings = max_position_embeddings
        self.d_model = d_model
@@ -163,11 +155,11 @@ class MarianConfig(PretrainedConfig):
        self.num_hidden_layers = encoder_layers
        self.gradient_checkpointing = gradient_checkpointing
        self.scale_embedding = scale_embedding  # scale factor will be sqrt(d_model) if True
+        super().__init__(
-    @property
+            pad_token_id=pad_token_id,
-    def num_attention_heads(self) -> int:
+            eos_token_id=eos_token_id,
-        return self.encoder_attention_heads
+            is_encoder_decoder=is_encoder_decoder,
+            decoder_start_token_id=decoder_start_token_id,
-    @property
+            forced_eos_token_id=forced_eos_token_id,
-    def hidden_size(self) -> int:
+            **kwargs,
-        return self.d_model
+        )
--- a/src/transformers/models/mbart/configuration_mbart.py
+++ b/src/transformers/models/mbart/configuration_mbart.py
@@ -107,6 +107,7 @@ class MBartConfig(PretrainedConfig):
    """
    model_type = "mbart"
    keys_to_ignore_at_inference = ["past_key_values"]
+    attribute_map = {"num_attention_heads": "encoder_attention_heads", "hidden_size": "d_model"}
    def __init__(
        self,
@@ -137,15 +138,6 @@ class MBartConfig(PretrainedConfig):
        forced_eos_token_id=2,
        **kwargs
    ):
-        super().__init__(
-            pad_token_id=pad_token_id,
-            bos_token_id=bos_token_id,
-            eos_token_id=eos_token_id,
-            is_encoder_decoder=is_encoder_decoder,
-            forced_eos_token_id=forced_eos_token_id,
-            **kwargs,
-        )
        self.vocab_size = vocab_size
        self.max_position_embeddings = max_position_embeddings
        self.d_model = d_model
@@ -167,14 +159,14 @@ class MBartConfig(PretrainedConfig):
        self.num_hidden_layers = encoder_layers
        self.gradient_checkpointing = gradient_checkpointing
        self.scale_embedding = scale_embedding  # scale factor will be sqrt(d_model) if True
+        super().__init__(
-    @property
+            pad_token_id=pad_token_id,
-    def num_attention_heads(self) -> int:
+            bos_token_id=bos_token_id,
-        return self.encoder_attention_heads
+            eos_token_id=eos_token_id,
+            is_encoder_decoder=is_encoder_decoder,
-    @property
+            forced_eos_token_id=forced_eos_token_id,
-    def hidden_size(self) -> int:
+            **kwargs,
-        return self.d_model
+        )
 class MBartOnnxConfig(OnnxConfigWithPast):