Skip any empty sentences during preprocessing.

3f4bc91b · Jared Casper · 61697cab · 3f4bc91b · 3f4bc91b
Commit 3f4bc91b authored Nov 08, 2019 by Jared Casper
Hide whitespace changes
Inline Side-by-side

Showing with 8 additions and 5 deletions

megatron/data/preprocess_data.py megatron/data/preprocess_data.py +2 -1

megatron/data/test/test_indexed_dataset.py megatron/data/test/test_indexed_dataset.py +6 -4

No files found.
--- a/megatron/data/preprocess_data.py
+++ b/megatron/data/preprocess_data.py
@@ -44,7 +44,8 @@ class Encoder(object):
        for sentence in Encoder.splitter.tokenize(text):
            tokens = Encoder.tokenizer.tokenize(sentence)
            ids = Encoder.tokenizer.convert_tokens_to_ids(tokens)
-            doc_ids.append(ids)
+            if len(ids) > 0:
+                doc_ids.append(ids)
        return doc_ids, len(json_line)
 def main():

--- a/megatron/data/test/test_indexed_dataset.py
+++ b/megatron/data/test/test_indexed_dataset.py
@@ -18,16 +18,18 @@ def test_indexed_dataset(args):
    if ds.supports_prefetch:
        # just prefetch the whole thing in test (so assume it is small)
        ds.prefetch(range(len(ds)))
-    for i in range(2):
+    for i in range(len(ds.doc_idx)-1):
        start = ds.doc_idx[i]
        end = ds.doc_idx[i+1]
        ids = ds[start:end]
        for s in ids:
+            assert len(s) > 0
            l = s.data.tolist()
-            print(l)
            tokens = tokenizer.convert_ids_to_tokens(l)
-            print(tokens)
+            for t in tokens:
-        print("******** END DOCUMENT **********")
+                if '\n' in t:
+                    print("Newline in string!")
+        print(i)
 def main():
    parser = argparse.ArgumentParser()