Reorganize repo (#8580)

* Put models in subfolders * Styling * Fix imports in tests * More fixes in test imports * Sneaky hidden imports * Fix imports in doc files * More sneaky imports * Finish fixing tests * Fix examples * Fix path for copies * More fixes for examples * Fix dummy files * More fixes for example * More model import fixes * Is this why you're unhappy GitHub? * Fix imports in conver command

Reorganize repo (#8580)
* Put models in subfolders * Styling * Fix imports in tests * More fixes in test imports * Sneaky hidden imports * Fix imports in doc files * More sneaky imports * Finish fixing tests * Fix examples * Fix path for copies * More fixes for examples * Fix dummy files * More fixes for example * More model import fixes * Is this why you're unhappy GitHub? * Fix imports in conver command
c89bdfbe · Sylvain Gugger · GitHub · 90150733 · c89bdfbe · c89bdfbe
Unverified Commit c89bdfbe authored Nov 16, 2020 by Sylvain Gugger Committed by GitHub Nov 16, 2020
20 changed files
--- a/examples/contrib/run_camembert.py
+++ b/examples/contrib/run_camembert.py
 import torch
-from transformers.modeling_camembert import CamembertForMaskedLM
+from transformers import CamembertForMaskedLM, CamembertTokenizer
-from transformers.tokenization_camembert import CamembertTokenizer
 def fill_mask(masked_input, model, tokenizer, topk=5):

--- a/examples/contrib/run_swag.py
+++ b/examples/contrib/run_swag.py
@@ -32,8 +32,14 @@ from torch.utils.data.distributed import DistributedSampler
 from tqdm import tqdm, trange
 import transformers
-from transformers import WEIGHTS_NAME, AdamW, AutoConfig, AutoTokenizer, get_linear_schedule_with_warmup
+from transformers import (
-from transformers.modeling_auto import AutoModelForMultipleChoice
+    WEIGHTS_NAME,
+    AdamW,
+    AutoConfig,
+    AutoModelForMultipleChoice,
+    AutoTokenizer,
+    get_linear_schedule_with_warmup,
+)
 from transformers.trainer_utils import is_main_process

--- a/examples/deebert/src/modeling_highway_bert.py
+++ b/examples/deebert/src/modeling_highway_bert.py
@@ -3,7 +3,7 @@ from torch import nn
 from torch.nn import CrossEntropyLoss, MSELoss
 from transformers.file_utils import add_start_docstrings, add_start_docstrings_to_model_forward
-from transformers.modeling_bert import (
+from transformers.models.bert.modeling_bert import (
    BERT_INPUTS_DOCSTRING,
    BERT_START_DOCSTRING,
    BertEmbeddings,

--- a/examples/deebert/src/modeling_highway_roberta.py
+++ b/examples/deebert/src/modeling_highway_roberta.py
@@ -3,9 +3,13 @@ from __future__ import absolute_import, division, print_function, unicode_litera
 import torch.nn as nn
 from torch.nn import CrossEntropyLoss, MSELoss
-from transformers.configuration_roberta import RobertaConfig
+from transformers import RobertaConfig
 from transformers.file_utils import add_start_docstrings, add_start_docstrings_to_model_forward
-from transformers.modeling_roberta import ROBERTA_INPUTS_DOCSTRING, ROBERTA_START_DOCSTRING, RobertaEmbeddings
+from transformers.models.roberta.modeling_roberta import (
+    ROBERTA_INPUTS_DOCSTRING,
+    ROBERTA_START_DOCSTRING,
+    RobertaEmbeddings,
+)
 from .modeling_highway_bert import BertPreTrainedModel, DeeBertModel, HighwayException, entropy

--- a/examples/movement-pruning/emmental/modeling_bert_masked.py
+++ b/examples/movement-pruning/emmental/modeling_bert_masked.py
@@ -16,7 +16,7 @@
 """Masked Version of BERT. It replaces the `torch.nn.Linear` layers with
 :class:`~emmental.MaskedLinear` and add an additional parameters in the forward pass to
 compute the adaptive mask.
-Built on top of `transformers.modeling_bert`"""
+Built on top of `transformers.models.bert.modeling_bert`"""
 import logging
@@ -29,8 +29,8 @@ from torch.nn import CrossEntropyLoss, MSELoss
 from emmental import MaskedBertConfig
 from emmental.modules import MaskedLinear
 from transformers.file_utils import add_start_docstrings, add_start_docstrings_to_model_forward
-from transformers.modeling_bert import ACT2FN, BertLayerNorm, load_tf_weights_in_bert
 from transformers.modeling_utils import PreTrainedModel, prune_linear_layer
+from transformers.models.bert.modeling_bert import ACT2FN, BertLayerNorm, load_tf_weights_in_bert
 logger = logging.getLogger(__name__)

--- a/examples/rag/distributed_retriever.py
+++ b/examples/rag/distributed_retriever.py
@@ -27,7 +27,7 @@ class RagPyTorchDistributedRetriever(RagRetriever):
            It is used to decode the question and then use the generator_tokenizer.
        generator_tokenizer (:class:`~transformers.PretrainedTokenizer`):
            The tokenizer used for the generator part of the RagModel.
-        index (:class:`~transformers.retrieval_rag.Index`, optional, defaults to the one defined by the configuration):
+        index (:class:`~transformers.models.rag.retrieval_rag.Index`, optional, defaults to the one defined by the configuration):
            If specified, use this index instead of the one built using the configuration
    """

--- a/examples/rag/test_distributed_retriever.py
+++ b/examples/rag/test_distributed_retriever.py
@@ -11,16 +11,12 @@ import numpy as np
 from datasets import Dataset
 import faiss
-from transformers.configuration_bart import BartConfig
+from transformers import BartConfig, BartTokenizer, DPRConfig, DPRQuestionEncoderTokenizer, RagConfig
-from transformers.configuration_dpr import DPRConfig
-from transformers.configuration_rag import RagConfig
 from transformers.file_utils import is_datasets_available, is_faiss_available, is_psutil_available, is_torch_available
-from transformers.retrieval_rag import CustomHFIndex
+from transformers.models.bert.tokenization_bert import VOCAB_FILES_NAMES as DPR_VOCAB_FILES_NAMES
+from transformers.models.rag.retrieval_rag import CustomHFIndex
+from transformers.models.roberta.tokenization_roberta import VOCAB_FILES_NAMES as BART_VOCAB_FILES_NAMES
 from transformers.testing_utils import require_torch_non_multi_gpu_but_fix_me
-from transformers.tokenization_bart import BartTokenizer
-from transformers.tokenization_bert import VOCAB_FILES_NAMES as DPR_VOCAB_FILES_NAMES
-from transformers.tokenization_dpr import DPRQuestionEncoderTokenizer
-from transformers.tokenization_roberta import VOCAB_FILES_NAMES as BART_VOCAB_FILES_NAMES
 sys.path.append(os.path.join(os.getcwd()))  # noqa: E402 # noqa: E402 # isort:skip
@@ -137,7 +133,7 @@ class RagRetrieverTest(TestCase):
            question_encoder=DPRConfig().to_dict(),
            generator=BartConfig().to_dict(),
        )
-        with patch("transformers.retrieval_rag.load_dataset") as mock_load_dataset:
+        with patch("transformers.models.rag.retrieval_rag.load_dataset") as mock_load_dataset:
            mock_load_dataset.return_value = dataset
            retriever = RagPyTorchDistributedRetriever(
                config,

--- a/examples/seq2seq/distillation.py
+++ b/examples/seq2seq/distillation.py
@@ -16,7 +16,7 @@ from finetune import SummarizationModule, TranslationModule
 from finetune import main as ft_main
 from make_student import create_student_by_copying_alternating_layers, get_layers_to_supervise
 from transformers import AutoModelForSeq2SeqLM, MBartTokenizer, T5ForConditionalGeneration
-from transformers.modeling_bart import shift_tokens_right
+from transformers.models.bart.modeling_bart import shift_tokens_right
 from utils import calculate_bleu, check_output_dir, freeze_params, label_smoothed_nll_loss, use_task_specific_params

--- a/examples/seq2seq/finetune.py
+++ b/examples/seq2seq/finetune.py
@@ -17,7 +17,7 @@ from torch.utils.data import DataLoader
 from callbacks import Seq2SeqLoggingCallback, get_checkpoint_callback, get_early_stopping_callback
 from transformers import MBartTokenizer, T5ForConditionalGeneration
-from transformers.modeling_bart import shift_tokens_right
+from transformers.models.bart.modeling_bart import shift_tokens_right
 from utils import (
    ROUGE_KEYS,
    LegacySeq2SeqDataset,

--- a/examples/seq2seq/seq2seq_trainer.py
+++ b/examples/seq2seq/seq2seq_trainer.py
@@ -5,8 +5,8 @@ from torch import nn
 from torch.utils.data import DistributedSampler, RandomSampler
 from transformers import PreTrainedModel, Trainer, logging
-from transformers.configuration_fsmt import FSMTConfig
 from transformers.file_utils import is_torch_tpu_available
+from transformers.models.fsmt.configuration_fsmt import FSMTConfig
 from transformers.optimization import (
    Adafactor,
    AdamW,

--- a/examples/seq2seq/test_datasets.py
+++ b/examples/seq2seq/test_datasets.py
@@ -10,7 +10,7 @@ from parameterized import parameterized
 from save_len_file import save_len_file
 from test_seq2seq_examples import ARTICLES, BART_TINY, MARIAN_TINY, MBART_TINY, SUMMARIES, T5_TINY, make_test_data_dir
 from transformers import AutoTokenizer
-from transformers.modeling_bart import shift_tokens_right
+from transformers.models.bart.modeling_bart import shift_tokens_right
 from transformers.testing_utils import TestCasePlus, require_torch_non_multi_gpu_but_fix_me, slow
 from utils import FAIRSEQ_AVAILABLE, DistributedSortishSampler, LegacySeq2SeqDataset, Seq2SeqDataset

--- a/examples/seq2seq/test_tatoeba_conversion.py
+++ b/examples/seq2seq/test_tatoeba_conversion.py
@@ -2,8 +2,8 @@ import os
 import tempfile
 import unittest
-from transformers.convert_marian_tatoeba_to_pytorch import DEFAULT_REPO, TatoebaConverter
 from transformers.file_utils import cached_property
+from transformers.models.marian.convert_marian_tatoeba_to_pytorch import DEFAULT_REPO, TatoebaConverter
 from transformers.testing_utils import require_torch_non_multi_gpu_but_fix_me, slow

--- a/examples/seq2seq/utils.py
+++ b/examples/seq2seq/utils.py
@@ -21,7 +21,7 @@ from torch.utils.data import Dataset, Sampler
 from sentence_splitter import add_newline_to_end_of_each_sentence
 from transformers import BartTokenizer, EvalPrediction, PreTrainedTokenizer, T5Tokenizer
 from transformers.file_utils import cached_property
-from transformers.modeling_bart import shift_tokens_right
+from transformers.models.bart.modeling_bart import shift_tokens_right
 try:

--- a/examples/text-generation/pplm/run_pplm.py
+++ b/examples/text-generation/pplm/run_pplm.py
@@ -34,9 +34,8 @@ import torch.nn.functional as F
 from tqdm import trange
 from pplm_classification_head import ClassificationHead
-from transformers import GPT2Tokenizer
+from transformers import GPT2LMHeadModel, GPT2Tokenizer
 from transformers.file_utils import cached_path
-from transformers.modeling_gpt2 import GPT2LMHeadModel
 PPLM_BOW = 1

--- a/model_cards/allenai/wmt16-en-de-12-1/README.md
+++ b/model_cards/allenai/wmt16-en-de-12-1/README.md
@@ -35,8 +35,7 @@ All 3 models are available:
 #### How to use
 ```python
-from transformers.tokenization_fsmt import FSMTTokenizer
+from transformers import FSMTForConditionalGeneration, FSMTTokenizer
-from transformers.modeling_fsmt import FSMTForConditionalGeneration
 mname = "allenai/wmt16-en-de-12-1"
 tokenizer = FSMTTokenizer.from_pretrained(mname)
 model = FSMTForConditionalGeneration.from_pretrained(mname)

--- a/model_cards/allenai/wmt16-en-de-dist-12-1/README.md
+++ b/model_cards/allenai/wmt16-en-de-dist-12-1/README.md
@@ -35,8 +35,7 @@ All 3 models are available:
 #### How to use
 ```python
-from transformers.tokenization_fsmt import FSMTTokenizer
+from transformers import FSMTForConditionalGeneration, FSMTTokenizer
-from transformers.modeling_fsmt import FSMTForConditionalGeneration
 mname = "allenai/wmt16-en-de-dist-12-1"
 tokenizer = FSMTTokenizer.from_pretrained(mname)
 model = FSMTForConditionalGeneration.from_pretrained(mname)

--- a/model_cards/allenai/wmt16-en-de-dist-6-1/README.md
+++ b/model_cards/allenai/wmt16-en-de-dist-6-1/README.md
@@ -35,8 +35,7 @@ All 3 models are available:
 #### How to use
 ```python
-from transformers.tokenization_fsmt import FSMTTokenizer
+from transformers import FSMTForConditionalGeneration, FSMTTokenizer
-from transformers.modeling_fsmt import FSMTForConditionalGeneration
 mname = "allenai/wmt16-en-de-dist-6-1"
 tokenizer = FSMTTokenizer.from_pretrained(mname)
 model = FSMTForConditionalGeneration.from_pretrained(mname)

--- a/model_cards/allenai/wmt19-de-en-6-6-base/README.md
+++ b/model_cards/allenai/wmt19-de-en-6-6-base/README.md
@@ -35,8 +35,7 @@ For more details, please, see [Deep Encoder, Shallow Decoder: Reevaluating the S
 #### How to use
 ```python
-from transformers.tokenization_fsmt import FSMTTokenizer
+from transformers import FSMTForConditionalGeneration, FSMTTokenizer
-from transformers.modeling_fsmt import FSMTForConditionalGeneration
 mname = "allenai/wmt19-de-en-6-6-base"
 tokenizer = FSMTTokenizer.from_pretrained(mname)
 model = FSMTForConditionalGeneration.from_pretrained(mname)

--- a/model_cards/allenai/wmt19-de-en-6-6-big/README.md
+++ b/model_cards/allenai/wmt19-de-en-6-6-big/README.md
@@ -35,8 +35,7 @@ For more details, please, see [Deep Encoder, Shallow Decoder: Reevaluating the S
 #### How to use
 ```python
-from transformers.tokenization_fsmt import FSMTTokenizer
+from transformers import FSMTForConditionalGeneration, FSMTTokenizer
-from transformers.modeling_fsmt import FSMTForConditionalGeneration
 mname = "allenai/wmt19-de-en-6-6-big"
 tokenizer = FSMTTokenizer.from_pretrained(mname)
 model = FSMTForConditionalGeneration.from_pretrained(mname)

--- a/model_cards/deepset/electra-base-squad2/README.md
+++ b/model_cards/deepset/electra-base-squad2/README.md
@@ -47,9 +47,7 @@ Evaluated on the SQuAD 2.0 dev set with the [official eval script](https://works
 ### In Transformers
 ```python
-from transformers.pipelines import pipeline
+from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline
-from transformers.modeling_auto import AutoModelForQuestionAnswering
-from transformers.tokenization_auto import AutoTokenizer
 model_name = "deepset/electra-base-squad2"