added case wordpiece arguments

ef5b2f06 · Raul Puri · 03d28809 · ef5b2f06 · ef5b2f06 · ef5b2f06
Commit ef5b2f06 authored Apr 24, 2020 by Raul Puri
Showing with 5 additions and 1 deletion

megatron/arguments.py megatron/arguments.py +1 -0

megatron/tokenizer/tokenizer.py megatron/tokenizer/tokenizer.py +3 -0

tools/preprocess_data.py tools/preprocess_data.py +1 -1

No files found.
--- a/megatron/arguments.py
+++ b/megatron/arguments.py
@@ -332,6 +332,7 @@ def _add_data_args(parser):
    group.add_argument('--tokenizer-type', type=str,
                       default=None,
                       choices=['BertWordPieceLowerCase',
+                                'BertWordPieceCase',
                                'GPT2BPETokenizer'],
                       help='What type of tokenizer to use.')
    group.add_argument('--data-impl', type=str, default='infer',

--- a/megatron/tokenizer/tokenizer.py
+++ b/megatron/tokenizer/tokenizer.py
@@ -33,6 +33,9 @@ def build_tokenizer(args):
    if args.tokenizer_type == 'BertWordPieceLowerCase':
        tokenizer = _BertWordPieceTokenizer(vocab_file=args.vocab_file,
                                            lower_case=True)
+    elif args.tokenizer_type == 'BertWordPieceCase':
+        tokenizer = _BertWordPieceTokenizer(vocab_file=args.vocab_file,
+                                            lower_case=False)
    elif args.tokenizer_type == 'GPT2BPETokenizer':
        assert args.merge_file is not None
        tokenizer = _GPT2BPETokenizer(args.vocab_file, args.merge_file)

--- a/tools/preprocess_data.py
+++ b/tools/preprocess_data.py
@@ -104,7 +104,7 @@ def get_args():
    group = parser.add_argument_group(title='tokenizer')
    group.add_argument('--tokenizer-type', type=str, required=True,
-                       choices=['BertWordPieceLowerCase',
+                       choices=['BertWordPieceLowerCase','BertWordPieceCase',
                                'GPT2BPETokenizer'],
                       help='What type of tokenizer to use.')
    group.add_argument('--vocab-file', type=str, default=None,