Add type hints for BigBirdPegasus and Data2VecText PyTorch models (#17123)

* Add type hints for remaining BigBirdPegasus models Here I added type hints to the BigBirdPegasusForCausalLM class. * Add missing type hints for Data2VecText models Added type hints to the Data2VecTextForCausalLM, Data2VecTextForMaskedLM, Data2VecTextForMultipleChoice, Data2VecTextForQuestionAnswering, Data2VecTextForSequenceClassification, and Data2VecTextForTokenClassification classes.

Add type hints for BigBirdPegasus and Data2VecText PyTorch models (#17123)
* Add type hints for remaining BigBirdPegasus models Here I added type hints to the BigBirdPegasusForCausalLM class. * Add missing type hints for Data2VecText models Added type hints to the Data2VecTextForCausalLM, Data2VecTextForMaskedLM, Data2VecTextForMultipleChoice, Data2VecTextForQuestionAnswering, Data2VecTextForSequenceClassification, and Data2VecTextForTokenClassification classes.
a021f2b9 · robsmith155 · GitHub · e9fd583c · a021f2b9 · a021f2b9
Unverified Commit a021f2b9 authored May 09, 2022 by robsmith155 Committed by GitHub May 09, 2022
2 changed files
--- a/src/transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py
+++ b/src/transformers/models/bigbird_pegasus/modeling_bigbird_pegasus.py
@@ -2931,20 +2931,20 @@ class BigBirdPegasusForCausalLM(BigBirdPegasusPreTrainedModel):
    @replace_return_docstrings(output_type=CausalLMOutputWithCrossAttentions, config_class=_CONFIG_FOR_DOC)
    def forward(
        self,
-        input_ids=None,
+        input_ids: torch.LongTensor = None,
-        attention_mask=None,
+        attention_mask: Optional[torch.Tensor] = None,
-        encoder_hidden_states=None,
+        encoder_hidden_states: Optional[torch.FloatTensor] = None,
-        encoder_attention_mask=None,
+        encoder_attention_mask: Optional[torch.FloatTensor] = None,
-        head_mask=None,
+        head_mask: Optional[torch.Tensor] = None,
-        cross_attn_head_mask=None,
+        cross_attn_head_mask: Optional[torch.Tensor] = None,
-        past_key_values=None,
+        past_key_values: Optional[Tuple[Tuple[torch.Tensor]]] = None,
-        inputs_embeds=None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
-        labels=None,
+        labels: Optional[torch.LongTensor] = None,
-        use_cache=None,
+        use_cache: Optional[bool] = None,
-        output_attentions=None,
+        output_attentions: Optional[bool] = None,
-        output_hidden_states=None,
+        output_hidden_states: Optional[bool] = None,
-        return_dict=None,
+        return_dict: Optional[bool] = None,
-    ):
+    ) -> Union[Tuple, CausalLMOutputWithCrossAttentions]:
        r"""
        Args:
            input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length)`):

--- a/src/transformers/models/data2vec/modeling_data2vec_text.py
+++ b/src/transformers/models/data2vec/modeling_data2vec_text.py
@@ -908,21 +908,21 @@ class Data2VecTextForCausalLM(Data2VecTextPreTrainedModel):
    @replace_return_docstrings(output_type=CausalLMOutputWithCrossAttentions, config_class=_CONFIG_FOR_DOC)
    def forward(
        self,
-        input_ids=None,
+        input_ids: Optional[torch.LongTensor] = None,
-        attention_mask=None,
+        attention_mask: Optional[torch.FloatTensor] = None,
-        token_type_ids=None,
+        token_type_ids: Optional[torch.LongTensor] = None,
-        position_ids=None,
+        position_ids: Optional[torch.LongTensor] = None,
-        head_mask=None,
+        head_mask: Optional[torch.FloatTensor] = None,
-        inputs_embeds=None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
-        encoder_hidden_states=None,
+        encoder_hidden_states: Optional[torch.FloatTensor] = None,
-        encoder_attention_mask=None,
+        encoder_attention_mask: Optional[torch.FloatTensor] = None,
-        labels=None,
+        labels: Optional[torch.LongTensor] = None,
-        past_key_values=None,
+        past_key_values: Optional[Tuple[Tuple[torch.FloatTensor]]] = None,
-        use_cache=None,
+        use_cache: Optional[bool] = None,
-        output_attentions=None,
+        output_attentions: Optional[bool] = None,
-        output_hidden_states=None,
+        output_hidden_states: Optional[bool] = None,
-        return_dict=None,
+        return_dict: Optional[bool] = None,
-    ):
+    ) -> Union[Tuple, CausalLMOutputWithCrossAttentions]:
        r"""
        encoder_hidden_states  (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`, *optional*):
            Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention if
@@ -1069,19 +1069,19 @@ class Data2VecTextForMaskedLM(Data2VecTextPreTrainedModel):
    )
    def forward(
        self,
-        input_ids=None,
+        input_ids: Optional[torch.LongTensor] = None,
-        attention_mask=None,
+        attention_mask: Optional[torch.FloatTensor] = None,
-        token_type_ids=None,
+        token_type_ids: Optional[torch.LongTensor] = None,
-        position_ids=None,
+        position_ids: Optional[torch.LongTensor] = None,
-        head_mask=None,
+        head_mask: Optional[torch.FloatTensor] = None,
-        inputs_embeds=None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
-        encoder_hidden_states=None,
+        encoder_hidden_states: Optional[torch.FloatTensor] = None,
-        encoder_attention_mask=None,
+        encoder_attention_mask: Optional[torch.FloatTensor] = None,
-        labels=None,
+        labels: Optional[torch.LongTensor] = None,
-        output_attentions=None,
+        output_attentions: Optional[bool] = None,
-        output_hidden_states=None,
+        output_hidden_states: Optional[bool] = None,
-        return_dict=None,
+        return_dict: Optional[bool] = None,
-    ):
+    ) -> Union[Tuple, MaskedLMOutput]:
        r"""
        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
            Labels for computing the masked language modeling loss. Indices should be in `[-100, 0, ...,
@@ -1183,17 +1183,17 @@ class Data2VecTextForSequenceClassification(Data2VecTextPreTrainedModel):
    )
    def forward(
        self,
-        input_ids=None,
+        input_ids: Optional[torch.LongTensor] = None,
-        attention_mask=None,
+        attention_mask: Optional[torch.FloatTensor] = None,
-        token_type_ids=None,
+        token_type_ids: Optional[torch.LongTensor] = None,
-        position_ids=None,
+        position_ids: Optional[torch.LongTensor] = None,
-        head_mask=None,
+        head_mask: Optional[torch.FloatTensor] = None,
-        inputs_embeds=None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
-        labels=None,
+        labels: Optional[torch.LongTensor] = None,
-        output_attentions=None,
+        output_attentions: Optional[bool] = None,
-        output_hidden_states=None,
+        output_hidden_states: Optional[bool] = None,
-        return_dict=None,
+        return_dict: Optional[bool] = None,
-    ):
+    ) -> Union[Tuple, SequenceClassifierOutput]:
        r"""
        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
            Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
@@ -1282,17 +1282,17 @@ class Data2VecTextForMultipleChoice(Data2VecTextPreTrainedModel):
    )
    def forward(
        self,
-        input_ids=None,
+        input_ids: Optional[torch.LongTensor] = None,
-        token_type_ids=None,
+        token_type_ids: Optional[torch.LongTensor] = None,
-        attention_mask=None,
+        attention_mask: Optional[torch.FloatTensor] = None,
-        labels=None,
+        labels: Optional[torch.LongTensor] = None,
-        position_ids=None,
+        position_ids: Optional[torch.LongTensor] = None,
-        head_mask=None,
+        head_mask: Optional[torch.FloatTensor] = None,
-        inputs_embeds=None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
-        output_attentions=None,
+        output_attentions: Optional[bool] = None,
-        output_hidden_states=None,
+        output_hidden_states: Optional[bool] = None,
-        return_dict=None,
+        return_dict: Optional[bool] = None,
-    ):
+    ) -> Union[Tuple, MultipleChoiceModelOutput]:
        r"""
        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
            Labels for computing the multiple choice classification loss. Indices should be in `[0, ...,
@@ -1380,17 +1380,17 @@ class Data2VecTextForTokenClassification(Data2VecTextPreTrainedModel):
    )
    def forward(
        self,
-        input_ids=None,
+        input_ids: Optional[torch.LongTensor] = None,
-        attention_mask=None,
+        attention_mask: Optional[torch.FloatTensor] = None,
-        token_type_ids=None,
+        token_type_ids: Optional[torch.LongTensor] = None,
-        position_ids=None,
+        position_ids: Optional[torch.LongTensor] = None,
-        head_mask=None,
+        head_mask: Optional[torch.FloatTensor] = None,
-        inputs_embeds=None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
-        labels=None,
+        labels: Optional[torch.LongTensor] = None,
-        output_attentions=None,
+        output_attentions: Optional[bool] = None,
-        output_hidden_states=None,
+        output_hidden_states: Optional[bool] = None,
-        return_dict=None,
+        return_dict: Optional[bool] = None,
-    ):
+    ) -> Union[Tuple, TokenClassifierOutput]:
        r"""
        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
            Labels for computing the token classification loss. Indices should be in `[0, ..., config.num_labels - 1]`.
@@ -1484,18 +1484,18 @@ class Data2VecTextForQuestionAnswering(Data2VecTextPreTrainedModel):
    )
    def forward(
        self,
-        input_ids=None,
+        input_ids: Optional[torch.LongTensor] = None,
-        attention_mask=None,
+        attention_mask: Optional[torch.FloatTensor] = None,
-        token_type_ids=None,
+        token_type_ids: Optional[torch.LongTensor] = None,
-        position_ids=None,
+        position_ids: Optional[torch.LongTensor] = None,
-        head_mask=None,
+        head_mask: Optional[torch.FloatTensor] = None,
-        inputs_embeds=None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
-        start_positions=None,
+        start_positions: Optional[torch.LongTensor] = None,
-        end_positions=None,
+        end_positions: Optional[torch.LongTensor] = None,
-        output_attentions=None,
+        output_attentions: Optional[bool] = None,
-        output_hidden_states=None,
+        output_hidden_states: Optional[bool] = None,
-        return_dict=None,
+        return_dict: Optional[bool] = None,
-    ):
+    ) -> Union[Tuple, QuestionAnsweringModelOutput]:
        r"""
        start_positions (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
            Labels for position (index) of the start of the labelled span for computing the token classification loss.