Merge branch 'nmt-main' into 'main'

yttm + BytelevelBPE + setencepeice tokenizer support See merge request ADLR/megatron-lm!437

Merge branch 'nmt-main' into 'main'
yttm + BytelevelBPE + setencepeice tokenizer support See merge request ADLR/megatron-lm!437
b9ae7ba5 · Jared Casper · fc7f4f03 · 41276b6c · b9ae7ba5 · b9ae7ba5
Commit b9ae7ba5 authored Oct 03, 2022 by Jared Casper
Hide whitespace changes
Inline Side-by-side

Showing with 173 additions and 1 deletion

megatron/arguments.py megatron/arguments.py +4 -1

megatron/tokenizer/tokenizer.py megatron/tokenizer/tokenizer.py +169 -0

No files found.
--- a/megatron/arguments.py
+++ b/megatron/arguments.py
@@ -863,8 +863,11 @@ def _add_data_args(parser):
                       default=None,
                       choices=['BertWordPieceLowerCase',
                                'BertWordPieceCase',
-                                'GPT2BPETokenizer'],
+                                'GPT2BPETokenizer',
+                                'SentencePieceTokenizer'],
                       help='What type of tokenizer to use.')
+    group.add_argument('--tokenizer-model', type=str, default=None,
+                       help='Sentencepiece tokenizer model.')
    group.add_argument('--data-impl', type=str, default='infer',
                       choices=['lazy', 'cached', 'mmap', 'infer'],
                       help='Implementation of indexed datasets.')

--- a/megatron/tokenizer/tokenizer.py
+++ b/megatron/tokenizer/tokenizer.py
@@ -28,6 +28,9 @@ def build_tokenizer(args):
    elif args.tokenizer_type == 'GPT2BPETokenizer':
        assert args.merge_file is not None
        tokenizer = _GPT2BPETokenizer(args.vocab_file, args.merge_file)
+    elif args.tokenizer_type == 'SentencePieceTokenizer':
+        assert args.tokenizer_model is not None
+        tokenizer = _SentencePieceTokenizer(args.tokenizer_model, vocab_extra_ids=args.vocab_extra_ids)
    else:
        raise NotImplementedError('{} tokenizer is not '
                                  'implemented.'.format(args.tokenizer_type))
@@ -276,3 +279,169 @@ class _GPT2BPETokenizer(AbstractTokenizer):
    @property
    def eod(self):
        return self.eod_id
+class _SentencePieceTokenizer(AbstractTokenizer):
+    """SentencePieceTokenizer-Megatron wrapper"""
+    def __init__(self, model_file, vocab_extra_ids=0):
+        name = 'SentencePieceTokenizer'
+        super().__init__(name)
+        import sentencepiece
+        self._tokenizer = sentencepiece.SentencePieceProcessor(model_file=model_file)
+        self._initalize(vocab_extra_ids)
+    def _initalize(self, vocab_extra_ids):
+        self._vocab = {}
+        self._inv_vocab = {}
+        self._special_tokens = {}
+        self._inv_special_tokens = {}
+        self._t5_tokens = []
+        for i in range(len(self._tokenizer)):
+            t = self._tokenizer.id_to_piece(i)
+            self._inv_vocab[i] = t
+            self._vocab[t] = i
+        def _add_special_token(t):
+            if t not in self._vocab:
+                next_id = len(self._vocab)
+                self._vocab[t] = next_id
+                self._inv_vocab[next_id] = t
+            self._special_tokens[t] = self._vocab[t]
+            self._inv_special_tokens[self._vocab[t]] = t
+        _add_special_token('<CLS>')
+        self._cls_id = self._vocab['<CLS>']
+        _add_special_token('<SEP>')
+        self._sep_id = self._vocab['<SEP>']
+        _add_special_token('<EOD>')
+        self._eod_id = self._vocab['<EOD>']
+        _add_special_token('<MASK>')
+        self._mask_id = self._vocab['<MASK>']
+        pad_id = self._tokenizer.pad_id()
+        try:
+            pad_token = self._tokenizer.id_to_piece(pad_id)
+        except IndexError:
+            pad_token = '<PAD>'
+        _add_special_token(pad_token)
+        self._pad_id = self._vocab[pad_token]
+        bos_id = self._tokenizer.bos_id()
+        try:
+            bos_token = self._tokenizer.id_to_piece(bos_id)
+        except IndexError:
+            bos_token = '<BOS>'
+        _add_special_token(bos_token)
+        self._bos_id = self._vocab[bos_token]
+        eos_id = self._tokenizer.eos_id()
+        try:
+            eos_token = self._tokenizer.id_to_piece(eos_id)
+        except IndexError:
+            eos_token = '<EOS>'
+        _add_special_token(eos_token)
+        self._eos_id = self._vocab[eos_token]
+        for i in range(vocab_extra_ids):
+            t = "<extra_id_{}>".format(i)
+            _add_special_token(t)
+            self._t5_tokens += [t]
+    @property
+    def vocab_size(self):
+        return len(self._vocab)
+    @property
+    def vocab(self):
+        return self._vocab
+    @property
+    def inv_vocab(self):
+        return self._inv_vocab
+    # From:
+    # https://github.com/NVIDIA/NeMo/blob/c8fa217e811d60d11d014827c7f3845ff6c99ae7/nemo/collections/common/tokenizers/sentencepiece_tokenizer.py#L89
+    def tokenize(self, text):
+        ids = []
+        idx = 0
+        while 1:
+            indices = {}
+            for token in self._special_tokens:
+                try:
+                    indices[token] = text[idx:].index(token)
+                except ValueError:
+                    continue
+            if len(indices) == 0:
+                break
+            next_token = min(indices, key=indices.get)
+            next_idx = idx + indices[next_token]
+            ids.extend(self._tokenizer.encode_as_ids(text[idx:next_idx]))
+            ids.append(self._special_tokens[next_token])
+            idx = next_idx + len(next_token)
+        ids.extend(self._tokenizer.encode_as_ids(text[idx:]))
+        return ids
+    # From:
+    # https://github.com/NVIDIA/NeMo/blob/c8fa217e811d60d11d014827c7f3845ff6c99ae7/nemo/collections/common/tokenizers/sentencepiece_tokenizer.py#L125
+    def detokenize(self, ids):
+        text = ""
+        last_i = 0
+        for i, id in enumerate(ids):
+            if id in self._inv_special_tokens:
+                text += self._tokenizer.decode_ids(ids[last_i:i]) + " "
+                text += self._inv_special_tokens[id] + " "
+                last_i = i + 1
+        text += self._tokenizer.decode_ids(ids[last_i:])
+        return text.strip()
+    @property
+    def cls(self):
+        return self._cls_id
+    @property
+    def sep(self):
+        return self._sep_id
+    @property
+    def pad(self):
+        return self._pad_id
+    @property
+    def bos_token_id(self):
+        return self._bos_id
+    @property
+    def bos(self):
+        return self._bos_id
+    @property
+    def eod(self):
+        return self._eod_id
+    @property
+    def eos_token_id(self):
+        return self._eos_id
+    @property
+    def eos(self):
+        return self._eos_id
+    @property
+    def mask(self):
+        return self._mask_id
+    @property
+    def additional_special_tokens_ids(self):
+        return [self.vocab[k] for k in self._t5_tokens]