Support different --max-positions and --tokens-per-sample

Summary: Pull Request resolved: https://github.com/pytorch/fairseq/pull/924 Differential Revision: D16548165 Pulled By: myleott fbshipit-source-id: 49569ece3e54fad7b4f0dfb201ac99123bfdd4f2

Support different --max-positions and --tokens-per-sample
Summary: Pull Request resolved: https://github.com/pytorch/fairseq/pull/924 Differential Revision: D16548165 Pulled By: myleott fbshipit-source-id: 49569ece3e54fad7b4f0dfb201ac99123bfdd4f2
33597e5a · Myle Ott · Facebook Github Bot · 2fe45f09 · 33597e5a · 33597e5a
Commit 33597e5a authored Jul 29, 2019 by Myle Ott Committed by Facebook Github Bot Jul 29, 2019
Showing with 6 additions and 2 deletions

fairseq/models/roberta/hub_interface.py fairseq/models/roberta/hub_interface.py +4 -0

fairseq/models/roberta/model.py fairseq/models/roberta/model.py +2 -0

fairseq/tasks/masked_lm.py fairseq/tasks/masked_lm.py +0 -2

No files found.
--- a/fairseq/models/roberta/hub_interface.py
+++ b/fairseq/models/roberta/hub_interface.py
@@ -43,6 +43,10 @@ class RobertaHubInterface(nn.Module):
    def extract_features(self, tokens: torch.LongTensor, return_all_hiddens=False) -> torch.Tensor:
        if tokens.dim() == 1:
            tokens = tokens.unsqueeze(0)
+        if tokens.size(-1) > self.model.max_positions():
+            raise ValueError('tokens exceeds maximum length: {} > {}'.format(
+                tokens.size(-1), self.model.max_positions()
+            ))
        features, extra = self.model(
            tokens.to(device=self.device),
            features_only=True,

--- a/fairseq/models/roberta/model.py
+++ b/fairseq/models/roberta/model.py
@@ -75,6 +75,8 @@ class RobertaModel(FairseqLanguageModel):
                            help='dropout probability after activation in FFN')
        parser.add_argument('--pooler-dropout', type=float, metavar='D',
                            help='dropout probability in the masked_lm pooler layers')
+        parser.add_argument('--max-positions', type=int,
+                            help='number of positional embeddings to learn')
    @classmethod
    def build_model(cls, args, task):

--- a/fairseq/tasks/masked_lm.py
+++ b/fairseq/tasks/masked_lm.py
@@ -178,8 +178,6 @@ class MaskedLMTask(FairseqTask):
        )
    def build_dataset_for_inference(self, src_tokens, src_lengths, sort=True):
-        if self.args.also_lowercase_words:
-            raise NotImplementedError
        src_dataset = PadDataset(
            TokenBlockDataset(
                src_tokens,