Merge pull request #42 from weiyumou/master

Fixed UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2

Merge pull request #42 from weiyumou/master
Fixed UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2
fd32ebed · Thomas Wolf · GitHub · eed255a5 · 9ff2b7d8 · fd32ebed
Unverified Commit fd32ebed authored Nov 20, 2018 by Thomas Wolf Committed by GitHub Nov 20, 2018
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

README.md README.md +1 -1

pytorch_pretrained_bert/tokenization.py pytorch_pretrained_bert/tokenization.py +1 -1

No files found.
--- a/README.md
+++ b/README.md
@@ -99,7 +99,7 @@ from pytorch_pretrained_bert import BertTokenizer, BertModel, BertForMaskedLM
 tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

 # Tokenized input
-tokenized_text = "Who was Jim Henson ? Jim Henson was a puppeteer"
+text = "Who was Jim Henson ? Jim Henson was a puppeteer"
 tokenized_text = tokenizer.tokenize(text)

 # Mask a token that we will try to predict back with `BertForMaskedLM`

--- a/pytorch_pretrained_bert/tokenization.py
+++ b/pytorch_pretrained_bert/tokenization.py
@@ -65,7 +65,7 @@ def load_vocab(vocab_file):
    """Loads a vocabulary file into a dictionary."""
    vocab = collections.OrderedDict()
    index = 0
-    with open(vocab_file, "r") as reader:
+    with open(vocab_file, "r", encoding="utf8") as reader:
        while True:
            token = convert_to_unicode(reader.readline())
            if not token: