[Gen] Add back num_last_tokens in gpt.py

7b33743a · Tri Dao · 5953c4f5 · 7b33743a
Commit 7b33743a authored Sep 03, 2023 by Tri Dao
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 0 deletions

flash_attn/models/gpt.py flash_attn/models/gpt.py +2 -0

No files found.
--- a/flash_attn/models/gpt.py
+++ b/flash_attn/models/gpt.py
@@ -634,6 +634,8 @@ class GPTLMHeadModel(GPTPreTrainedModel, GenerationMixin):
            input_ids, position_ids=position_ids, inference_params=inference_params
        )
        assert hidden_states.ndim == 3, "sequence_parallel is not supported in generation mode"
+        if num_last_tokens > 0:
+            hidden_states = hidden_states[:, -num_last_tokens:]
        if self.project_out is not None:
            hidden_states = self.project_out(hidden_states)
        lm_logits = self.lm_head(hidden_states)