Merge branch 'cased_update' into 'master'

added case wordpiece arguments See merge request ADLR/megatron-lm!76

Merge branch 'cased_update' into 'master'
added case wordpiece arguments See merge request ADLR/megatron-lm!76
3af90c7a · Mohammad Shoeybi · 03d28809 · 26c5f12a · 3af90c7a · 3af90c7a
Commit 3af90c7a authored Apr 24, 2020 by Mohammad Shoeybi
Showing with 13 additions and 4 deletions

megatron/arguments.py megatron/arguments.py +9 -3

megatron/tokenizer/tokenizer.py megatron/tokenizer/tokenizer.py +3 -0

tools/preprocess_data.py tools/preprocess_data.py +1 -1

No files found.
--- a/megatron/arguments.py
+++ b/megatron/arguments.py
@@ -52,9 +52,14 @@ def parse_args(extra_args_provider=None, defaults={},
        # For default to be valid, it should not be provided in the
        # arguments that are passed to the program. We check this by
        # ensuring the arg is set to None.
-        assert getattr(args, key) is None, \
-            'defaults can only be overwritten for args with None values.'
-        setattr(args, key, defaults[key])
+        if getattr(args, key) is not None:
+            if args.rank == 0:
+                print('WARNING: overriding default arguments for {key}:{v} \
+                       with {key}:{v2}'.format(key=key, v=defaults[key],
+                                               v2=getattr(args, key)),
+                                               flush=True)
+        else:
+            setattr(args, key, defaults[key])

    # Check required arguments.
    required_args = ['num_layers', 'hidden_size', 'num_attention_heads',
@@ -332,6 +337,7 @@ def _add_data_args(parser):
    group.add_argument('--tokenizer-type', type=str,
                       default=None,
                       choices=['BertWordPieceLowerCase',
+                                'BertWordPieceCase',
                                'GPT2BPETokenizer'],
                       help='What type of tokenizer to use.')
    group.add_argument('--data-impl', type=str, default='infer',

--- a/megatron/tokenizer/tokenizer.py
+++ b/megatron/tokenizer/tokenizer.py
@@ -33,6 +33,9 @@ def build_tokenizer(args):
    if args.tokenizer_type == 'BertWordPieceLowerCase':
        tokenizer = _BertWordPieceTokenizer(vocab_file=args.vocab_file,
                                            lower_case=True)
+    elif args.tokenizer_type == 'BertWordPieceCase':
+        tokenizer = _BertWordPieceTokenizer(vocab_file=args.vocab_file,
+                                            lower_case=False)
    elif args.tokenizer_type == 'GPT2BPETokenizer':
        assert args.merge_file is not None
        tokenizer = _GPT2BPETokenizer(args.vocab_file, args.merge_file)

--- a/tools/preprocess_data.py
+++ b/tools/preprocess_data.py
@@ -104,7 +104,7 @@ def get_args():

    group = parser.add_argument_group(title='tokenizer')
    group.add_argument('--tokenizer-type', type=str, required=True,
-                       choices=['BertWordPieceLowerCase',
+                       choices=['BertWordPieceLowerCase','BertWordPieceCase',
                                'GPT2BPETokenizer'],
                       help='What type of tokenizer to use.')
    group.add_argument('--vocab-file', type=str, default=None,