make dictionary optional

Reviewed By: jingfeidu Differential Revision: D13104360 fbshipit-source-id: 9636f5ee2721818f98b33af559fa24292534a72f

make dictionary optional
Reviewed By: jingfeidu Differential Revision: D13104360 fbshipit-source-id: 9636f5ee2721818f98b33af559fa24292534a72f
a4e34985 · Haoran Li · Facebook Github Bot · 161d1e06 · a4e34985 · a4e34985
Commit a4e34985 authored Nov 16, 2018 by Haoran Li Committed by Facebook Github Bot Nov 16, 2018
Hide whitespace changes
Inline Side-by-side

Showing with 14 additions and 7 deletions

fairseq/modules/character_token_embedder.py fairseq/modules/character_token_embedder.py +6 -2

fairseq/tasks/language_modeling.py fairseq/tasks/language_modeling.py +8 -5

No files found.
--- a/fairseq/modules/character_token_embedder.py
+++ b/fairseq/modules/character_token_embedder.py
@@ -51,7 +51,11 @@ class CharacterTokenEmbedder(torch.nn.Module):
        self.projection = nn.Linear(last_dim, word_embed_dim)
-        self.set_vocab(vocab, max_char_len)
+        assert vocab is not None or char_inputs, "vocab must be set if not using char inputs"
+        self.vocab = None
+        if vocab is not None:
+            self.set_vocab(vocab, max_char_len)
        self.reset_parameters()
    def set_vocab(self, vocab, max_char_len):
@@ -78,7 +82,7 @@ class CharacterTokenEmbedder(torch.nn.Module):
    @property
    def padding_idx(self):
-        return self.vocab.pad()
+        return Dictionary().pad() if self.vocab is None else self.vocab.pad()
    def reset_parameters(self):
        nn.init.xavier_normal_(self.char_embeddings.weight)

--- a/fairseq/tasks/language_modeling.py
+++ b/fairseq/tasks/language_modeling.py
@@ -87,11 +87,14 @@ class LanguageModelingTask(FairseqTask):
        Args:
            args (argparse.Namespace): parsed command-line arguments
        """
-        dictionary = Dictionary.load(os.path.join(args.data, 'dict.txt'))
+        dictionary = None
-        print('| dictionary: {} types'.format(len(dictionary)))
+        output_dictionary = None
-        output_dictionary = dictionary
+        if args.data:
-        if args.output_dictionary_size >= 0:
+            dictionary = Dictionary.load(os.path.join(args.data, 'dict.txt'))
-            output_dictionary = TruncatedDictionary(dictionary, args.output_dictionary_size)
+            print('| dictionary: {} types'.format(len(dictionary)))
+            output_dictionary = dictionary
+            if args.output_dictionary_size >= 0:
+                output_dictionary = TruncatedDictionary(dictionary, args.output_dictionary_size)
        # upgrade old checkpoints
        if hasattr(args, 'exclude_self_target'):