Upgrade NLTK version to circumvent unsafe pickling in v3.8.1 (#1102)

* Switch to nltk>3.8.1 and new data Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix nltk install Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

Upgrade NLTK version to circumvent unsafe pickling in v3.8.1 (#1102)
* Switch to nltk>3.8.1 and new data Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> * fix nltk install Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com> --------- Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
0075a46a · Kirthi Shankar Sivamani · GitHub · 4b2b39b4 · 0075a46a · 0075a46a
Unverified Commit 0075a46a authored Aug 13, 2024 by Kirthi Shankar Sivamani Committed by GitHub Aug 13, 2024
6 changed files
--- a/examples/jax/encoder/requirements.txt
+++ b/examples/jax/encoder/requirements.txt
 datasets
 flax>=0.7.1
-nltk
+nltk>=3.8.2
 optax
--- a/examples/jax/encoder/test_model_parallel_encoder.py
+++ b/examples/jax/encoder/test_model_parallel_encoder.py
@@ -168,7 +168,7 @@ def eval_model(state, test_ds, batch_size, var_collect, eval_fn):
 def data_preprocess(dataset, vocab, word_id, max_seq_len):
    """Convert tokens to numbers."""
-    nltk.download("punkt")
+    nltk.download("punkt_tab")
    dataset_size = len(dataset["sentence"])
    output = np.zeros((dataset_size, max_seq_len), dtype=np.int32)
    mask_3d = np.ones((dataset_size, max_seq_len, max_seq_len), dtype=np.uint8)

--- a/examples/jax/encoder/test_multigpu_encoder.py
+++ b/examples/jax/encoder/test_multigpu_encoder.py
@@ -147,7 +147,7 @@ def eval_model(state, test_ds, batch_size, var_collect, eval_fn):
 def data_preprocess(dataset, vocab, word_id, max_seq_len):
    """Convert tokens to numbers."""
-    nltk.download("punkt")
+    nltk.download("punkt_tab")
    dataset_size = len(dataset["sentence"])
    output = np.zeros((dataset_size, max_seq_len), dtype=np.int32)
    mask_3d = np.ones((dataset_size, max_seq_len, max_seq_len), dtype=np.uint8)

--- a/examples/jax/encoder/test_multiprocessing_encoder.py
+++ b/examples/jax/encoder/test_multiprocessing_encoder.py
@@ -250,7 +250,7 @@ def eval_model(
 def data_preprocess(dataset, vocab, word_id, max_seq_len):
    """Convert tokens to numbers."""
-    nltk.download("punkt")
+    nltk.download("punkt_tab")
    dataset_size = len(dataset["sentence"])
    output = np.zeros((dataset_size, max_seq_len), dtype=np.int32)
    mask_3d = np.ones((dataset_size, max_seq_len, max_seq_len), dtype=np.uint8)

--- a/examples/jax/encoder/test_single_gpu_encoder.py
+++ b/examples/jax/encoder/test_single_gpu_encoder.py
@@ -144,7 +144,7 @@ def eval_model(state, test_ds, batch_size, var_collect):
 def data_preprocess(dataset, vocab, word_id, max_seq_len):
    """Convert tokens to numbers."""
-    nltk.download("punkt")
+    nltk.download("punkt_tab")
    dataset_size = len(dataset["sentence"])
    output = np.zeros((dataset_size, max_seq_len), dtype=np.int32)
    mask_3d = np.ones((dataset_size, max_seq_len, max_seq_len), dtype=np.uint8)

--- a/qa/L0_jax_unittest/test.sh
+++ b/qa/L0_jax_unittest/test.sh
@@ -4,7 +4,7 @@
 set -xe
-pip install nltk==3.8.1
+pip install "nltk>=3.8.2"
 pip install pytest==8.2.1
 : ${TE_PATH:=/opt/transformerengine}