[BugFix] Fix cuda graph for MLPSpeculator (#5875)

Co-authored-by: Abhinav Goyal <abhinav.goyal@flipkart.com>

[BugFix] Fix cuda graph for MLPSpeculator (#5875)
Co-authored-by: Abhinav Goyal <abhinav.goyal@flipkart.com>
2110557d · Nick Hill · GitHub · b9e84259 · 2110557d · 2110557d
Unverified Commit 2110557d authored Jun 26, 2024 by Nick Hill Committed by GitHub Jun 27, 2024
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 4 deletions

examples/offline_inference_mlpspeculator.py examples/offline_inference_mlpspeculator.py +0 -1

vllm/worker/model_runner.py vllm/worker/model_runner.py +6 -3

No files found.
--- a/examples/offline_inference_mlpspeculator.py
+++ b/examples/offline_inference_mlpspeculator.py
@@ -52,7 +52,6 @@ if __name__ == "__main__":
        speculative_model="ibm-fms/llama-13b-accelerator",
        # These are currently required for MLPSpeculator decoding
        use_v2_block_manager=True,
-        enforce_eager=True,
    )
    print("With speculation")

--- a/vllm/worker/model_runner.py
+++ b/vllm/worker/model_runner.py
@@ -1020,10 +1020,13 @@ class ModelRunner(GPUModelRunnerBase[ModelInputForGPUWithSamplingMetadata]):
        if self.return_hidden_states:
            # we only need to pass hidden states of most recent token
-            if model_input.is_prompt:
            assert model_input.sampling_metadata is not None
-                hidden_states = hidden_states.index_select(
+            indices = model_input.sampling_metadata.selected_token_indices
-                    0, model_input.sampling_metadata.selected_token_indices)
+            if model_input.is_prompt:
+                hidden_states = hidden_states.index_select(0, indices)
+            elif decode_meta.use_cuda_graph:
+                hidden_states = hidden_states[:len(indices)]
            output.hidden_states = hidden_states
        return output