Fix tokenization (fixes #926) (#929)

Summary: Fixes https://github.com/pytorch/fairseq/issues/926 Pull Request resolved: https://github.com/pytorch/fairseq/pull/929 Differential Revision: D16560281 Pulled By: myleott fbshipit-source-id: 751051bcdbf25207315bb05f5bee0235d21be627

Fix tokenization (fixes #926) (#929)
Summary: Fixes https://github.com/pytorch/fairseq/issues/926 Pull Request resolved: https://github.com/pytorch/fairseq/pull/929 Differential Revision: D16560281 Pulled By: myleott fbshipit-source-id: 751051bcdbf25207315bb05f5bee0235d21be627
c132b9b9 · Myle Ott · Facebook Github Bot · 138dc8e4 · c132b9b9
Commit c132b9b9 authored Jul 30, 2019 by Myle Ott Committed by Facebook Github Bot Jul 30, 2019
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

fairseq/models/roberta/hub_interface.py fairseq/models/roberta/hub_interface.py +2 -2

No files found.
--- a/fairseq/models/roberta/hub_interface.py
+++ b/fairseq/models/roberta/hub_interface.py
@@ -36,8 +36,8 @@ class RobertaHubInterface(nn.Module):
    def encode(self, sentence: str, *addl_sentences) -> torch.LongTensor:
        bpe_sentence = '<s> ' + self.bpe.encode(sentence) + ' </s>'
        for s in addl_sentences:
-            bpe_sentence += ' </s> ' + self.bpe.encode(s)
+            bpe_sentence += ' </s> ' + self.bpe.encode(s) + ' </s>'
-        tokens = self.task.source_dictionary.encode_line(bpe_sentence, append_eos=True)
+        tokens = self.task.source_dictionary.encode_line(bpe_sentence, append_eos=False)
        return tokens.long()
    def extract_features(self, tokens: torch.LongTensor, return_all_hiddens=False) -> torch.Tensor: