[ProphetNet] Correct Doc string example (#7944)

* correct xlm prophetnet auto model and examples * fix line-break docs

[ProphetNet] Correct Doc string example (#7944)
* correct xlm prophetnet auto model and examples * fix line-break docs
9b6610f7 · Patrick von Platen · GitHub · e174bfeb · 9b6610f7 · 9b6610f7
Unverified Commit 9b6610f7 authored Oct 21, 2020 by Patrick von Platen Committed by GitHub Oct 21, 2020
3 changed files
--- a/src/transformers/modeling_auto.py
+++ b/src/transformers/modeling_auto.py
@@ -335,7 +335,7 @@ MODEL_FOR_CAUSAL_LM_MAPPING = OrderedDict(
        (CTRLConfig, CTRLLMHeadModel),
        (ReformerConfig, ReformerModelWithLMHead),
        (BertGenerationConfig, BertGenerationDecoder),
-        (ProphetNetConfig, XLMProphetNetForCausalLM),
+        (XLMProphetNetConfig, XLMProphetNetForCausalLM),
        (ProphetNetConfig, ProphetNetForCausalLM),
    ]
 )

--- a/src/transformers/modeling_prophetnet.py
+++ b/src/transformers/modeling_prophetnet.py
@@ -1931,14 +1931,21 @@ class ProphetNetForCausalLM(ProphetNetPreTrainedModel):
            >>> logits = outputs.logits
            >>> # Model can also be used with EncoderDecoder framework
-            >>> from transformers import BertTokenizer, EncoderDecoderModel
+            >>> from transformers import BertTokenizer, EncoderDecoderModel, ProphetNetTokenizer
            >>> import torch
-            >>> tokenizer = BertTokenizer.from_pretrained('bert-uncased-large')
+            >>> tokenizer_enc = BertTokenizer.from_pretrained('bert-large-uncased')
-            >>> model = EncoderDecoderModel.from_encoder_decoder_pretrained("bert-uncased-large", "patrickvonplaten/prophetnet-decoder-clm-large-uncased")
+            >>> tokenizer_dec = ProphetNetTokenizer.from_pretrained('microsoft/prophetnet-large-uncased')
+            >>> model = EncoderDecoderModel.from_encoder_decoder_pretrained("bert-large-uncased", "patrickvonplaten/prophetnet-decoder-clm-large-uncased")
-            >>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
-            >>> outputs = model(input_ids=inputs["input_ids"], labels=inputs["input_ids"], return_dict=True)
+            >>> ARTICLE = (
+            ... "the us state department said wednesday it had received no "
+            ... "formal word from bolivia that it was expelling the us ambassador there "
+            ... "but said the charges made against him are `` baseless ."
+            ... )
+            >>> input_ids = tokenizer_enc(ARTICLE, return_tensors="pt").input_ids
+            >>> labels = tokenizer_dec("us rejects charges against its ambassador in bolivia", return_tensors="pt").input_ids
+            >>> outputs = model(input_ids=input_ids, decoder_input_ids=labels[:, :-1], labels=labels[:, 1:], return_dict=True)
            >>> loss = outputs.loss
        """

--- a/src/transformers/modeling_xlm_prophetnet.py
+++ b/src/transformers/modeling_xlm_prophetnet.py
@@ -144,14 +144,21 @@ class XLMProphetNetForCausalLM(ProphetNetForCausalLM):
        >>> logits = outputs.logits
        >>> # Model can also be used with EncoderDecoder framework
-        >>> from transformers import BertTokenizer, EncoderDecoderModel
+        >>> from transformers import EncoderDecoderModel, XLMProphetNetTokenizer, XLMRobertaTokenizer
        >>> import torch
-        >>> tokenizer = BertTokenizer.from_pretrained('bert-uncased-large')
+        >>> tokenizer_enc = XLMRobertaTokenizer.from_pretrained('xlm-roberta-large')
-        >>> model = EncoderDecoderModel.from_encoder_decoder_pretrained("bert-uncased-large", "patrickvonplaten/xprophetnet-decoder-clm-large-uncased")
+        >>> tokenizer_dec = XLMProphetNetTokenizer.from_pretrained('microsoft/xprophetnet-large-wiki100-cased')
+        >>> model = EncoderDecoderModel.from_encoder_decoder_pretrained("xlm-roberta-large", "patrickvonplaten/xprophetnet-decoder-clm-large-uncased")
-        >>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
-        >>> outputs = model(input_ids=inputs["input_ids"], labels=inputs["input_ids"])
+        >>> ARTICLE = (
+        ... "the us state department said wednesday it had received no "
+        ... "formal word from bolivia that it was expelling the us ambassador there "
+        ... "but said the charges made against him are `` baseless ."
+        ... )
+        >>> input_ids = tokenizer_enc(ARTICLE, return_tensors="pt").input_ids
+        >>> labels = tokenizer_dec("us rejects charges against its ambassador in bolivia", return_tensors="pt").input_ids
+        >>> outputs = model(input_ids=input_ids, decoder_input_ids=labels[:, :-1], labels=labels[:, 1:], return_dict=True)
        >>> loss = outputs.loss
    """