Fix bug leading to missing token in GPTSanJapaneseTokenizer (#23883)

* add \n * removed copied from header

Fix bug leading to missing token in GPTSanJapaneseTokenizer (#23883)
* add \n * removed copied from header
38dbbc26 · Sam Passaglia · GitHub · 03db5910 · 38dbbc26
Unverified Commit 38dbbc26 authored May 31, 2023 by Sam Passaglia Committed by GitHub May 31, 2023
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 2 deletions

src/transformers/models/gptsan_japanese/tokenization_gptsan_japanese.py ...rs/models/gptsan_japanese/tokenization_gptsan_japanese.py +1 -2

No files found.
--- a/src/transformers/models/gptsan_japanese/tokenization_gptsan_japanese.py
+++ b/src/transformers/models/gptsan_japanese/tokenization_gptsan_japanese.py
@@ -55,7 +55,6 @@ PRETRAINED_POSITIONAL_EMBEDDINGS_SIZES = {
 }
-# Copied from transformers.models.gpt_neox_japanese.tokenization_gpt_neox_japanese.load_vocab_and_emoji
 def load_vocab_and_emoji(vocab_file, emoji_file):
    """Loads a vocabulary file and emoji file into a dictionary."""
    with open(emoji_file, "r", encoding="utf-8") as f:
@@ -66,7 +65,7 @@ def load_vocab_and_emoji(vocab_file, emoji_file):
    ids_to_tokens = collections.OrderedDict()
    with open(vocab_file, "r", encoding="utf-8") as f:
        token = f.readlines()
-    token = [[t.rstrip("\n")] if (t == "," or "," not in t) else t.rstrip("\n").split(",") for t in token]
+    token = [[t.rstrip("\n")] if (t == ",\n" or "," not in t) else t.rstrip("\n").split(",") for t in token]
    for idx, b in enumerate(token):
        ids_to_tokens[idx] = b
        raw_vocab[",".join(b)] = idx