Missed some changes from next-best-lm branch.

3207c19a · Jared Casper · 46ffb75c · 3207c19a · 3207c19a · 3207c19a
Commit 3207c19a authored Apr 06, 2023 by Jared Casper
Showing with 6 additions and 1 deletion

megatron/global_vars.py megatron/global_vars.py +1 -1

tools/preprocess_data.py tools/preprocess_data.py +2 -0

tools/preprocess_data_partitions.py tools/preprocess_data_partitions.py +3 -0

No files found.
--- a/megatron/global_vars.py
+++ b/megatron/global_vars.py
@@ -89,7 +89,7 @@ def set_global_variables(args):
    set_args(args)

    _build_num_microbatches_calculator(args)
-    if args.vocab_file:
+    if args.vocab_file or args.tokenizer_model:
        _ = _build_tokenizer(args)
    _set_tensorboard_writer(args)
    _set_adlr_autoresume(args)

--- a/tools/preprocess_data.py
+++ b/tools/preprocess_data.py
@@ -104,6 +104,8 @@ def get_args():
                       help='Append an <eod> token to the end of a document.')
    group.add_argument('--lang', type=str, default='english',
                       help='Language to use for NLTK-powered sentence splitting.')
+    group.add_argument('--tokenizer-model', type=str, default=None,
+                       help='sentencepeice tokenizer model.')


    group = parser.add_argument_group(title='output data')

--- a/tools/preprocess_data_partitions.py
+++ b/tools/preprocess_data_partitions.py
@@ -326,6 +326,9 @@ def main():
        for p in processes:
            p.join()

+        if args.partitions == 1:
+            return
+

    # encode partition files in parallel
    processes = []