Merging megatron with ICT

651cc107 · Mostofa Patwary · e919dd8e · c601d751 · 651cc107 · 651cc107
Commit 651cc107 authored Feb 03, 2021 by Mostofa Patwary
20 changed files
--- a/megatron/optimizer/optimizer.py
+++ b/megatron/optimizer/optimizer.py
--- a/megatron/training.py
+++ b/megatron/training.py
--- a/megatron/utils.py
+++ b/megatron/utils.py
--- a/pretrain_bert.py
+++ b/pretrain_bert.py
--- a/pretrain_gpt2.py
+++ b/pretrain_gpt2.py
--- a/pretrain_ict.py
+++ b/pretrain_ict.py
@@ -149,6 +149,7 @@ def train_valid_test_datasets_provider(train_val_test_num_samples):
        short_seq_prob=args.short_seq_prob,
        seed=args.seed,
        skip_warmup=(not args.mmap_warmup),
+        binary_head=False,
        dataset_type='ict')
    print_rank_0("> finished creating BERT ICT datasets ...")

--- a/pretrain_vit.py
+++ b/pretrain_vit.py
--- a/tasks/finetune_utils.py
+++ b/tasks/finetune_utils.py
--- a/tasks/main.py
+++ b/tasks/main.py
@@ -61,7 +61,7 @@ if __name__ == '__main__':
    elif args.task in ['MNLI', 'QQP']:
        from glue.finetune import main
    elif args.task in ['LAMBADA', 'WIKITEXT103']:
-        from zeroshot_gpt2.evaluate import main
+        from zeroshot_gpt.evaluate import main
    else:
        raise NotImplementedError('Task {} is not implemented.'.format(
            args.task))

--- a/tasks/vision/classification.py
+++ b/tasks/vision/classification.py
--- a/tasks/vision/eval_utils.py
+++ b/tasks/vision/eval_utils.py
--- a/tasks/vision/finetune_utils.py
+++ b/tasks/vision/finetune_utils.py
--- a/tasks/vision/main.py
+++ b/tasks/vision/main.py
--- a/tasks/zeroshot_gpt2/datasets.py
+++ b/tasks/zeroshot_gpt2/datasets.py
--- a/tasks/zeroshot_gpt2/detokenizer.py
+++ b/tasks/zeroshot_gpt2/detokenizer.py
--- a/tasks/zeroshot_gpt2/evaluate.py
+++ b/tasks/zeroshot_gpt2/evaluate.py
--- a/tests/test_basic.py
+++ b/tests/test_basic.py
+def test_import():
+    import megatron
--- a/tools/generate_samples_gpt2.py
+++ b/tools/generate_samples_gpt2.py
--- a/tools/merge_mp_partitions.py
+++ b/tools/merge_mp_partitions.py
--- a/tools/preprocess_data.py
+++ b/tools/preprocess_data.py
@@ -85,7 +85,7 @@ class Encoder(object):
                sentence_ids = Encoder.tokenizer.tokenize(sentence)
                if len(sentence_ids) > 0:
                    doc_ids.append(sentence_ids)
-            if self.args.append_eod:
+            if len(doc_ids) > 0 and self.args.append_eod:
                doc_ids[-1].append(Encoder.tokenizer.eod)
            ids[key] = doc_ids
        return ids, len(json_line)
@@ -182,6 +182,8 @@ def main():
    for i, (doc, bytes_processed) in enumerate(encoded_docs, start=1):
        total_bytes_processed += bytes_processed
        for key, sentences in doc.items():
+            if len(sentences) == 0:
+                continue
            for sentence in sentences:
                builders[key].add_item(torch.IntTensor(sentence))
            builders[key].end_document()