add and improve comments

267587c2 · patrickvonplaten · d891fd0a · 267587c2 · 267587c2 · 267587c2
Commit 267587c2 authored Dec 23, 2019 by patrickvonplaten
3 changed files
--- a/src/transformers/modeling_ctrl.py
+++ b/src/transformers/modeling_ctrl.py
@@ -491,7 +491,7 @@ class CTRLLMHeadModel(CTRLPreTrainedModel):
        return self.lm_head

    def prepare_inputs_for_generation(self, input_ids, **kwargs):
-        # inputs_ids contain only last token if past is in kwargs and defined
+        # inputs_ids should only be composed of last token if past is in kwargs and defined
        input_ids = input_ids[:, -1].unsqueeze(-1) if 'past' in kwargs and kwargs['past'] else input_ids

        inputs = {"input_ids": input_ids}

--- a/src/transformers/modeling_gpt2.py
+++ b/src/transformers/modeling_gpt2.py
@@ -560,7 +560,7 @@ class GPT2LMHeadModel(GPT2PreTrainedModel):
        return self.lm_head

    def prepare_inputs_for_generation(self, input_ids, **kwargs):
-        # inputs_ids contain only last token if past is in kwargs and defined
+        # inputs_ids should only be composed of last token if past is in kwargs and defined
        input_ids = input_ids[:, -1].unsqueeze(-1) if 'past' in kwargs and kwargs['past'] else input_ids

        inputs = {"input_ids": input_ids}

--- a/src/transformers/modeling_utils.py
+++ b/src/transformers/modeling_utils.py
@@ -732,6 +732,7 @@ class PreTrainedModel(nn.Module):
            outputs = self(**model_inputs)
            next_token_logits = outputs[0][:, -1, :]

+            # if model has past, then set the past parameter to speed up decoding
            if self._has_past(outputs):
                past = outputs[1]

@@ -819,6 +820,7 @@ class PreTrainedModel(nn.Module):
            outputs = self(**model_inputs)  # (batch_size * num_beams, cur_len, vocab_size)
            scores = outputs[0][:, -1, :]  # (batch_size * num_beams, vocab_size)

+            # if model has past, then set the past parameter to speed up decoding
            if self._has_past(outputs):
                past = outputs[1]