[V0 Deprecation] Remove V0 Spec Decode workers (#21152)

Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>

[V0 Deprecation] Remove V0 Spec Decode workers (#21152)
Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
dd572c0a · Woosuk Kwon · GitHub · 9ffe905a · dd572c0a · dd572c0a
Unverified Commit dd572c0a authored Jul 18, 2025 by Woosuk Kwon Committed by GitHub Jul 18, 2025
20 changed files
--- a/vllm/config.py
+++ b/vllm/config.py
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
@@ -1417,28 +1417,12 @@ class EngineArgs:
            return False
        # V1 supports N-gram, Medusa, and Eagle speculative decoding.
-        is_ngram_enabled = False
+        if (self.speculative_config is not None
-        is_eagle_enabled = False
+                and self.speculative_config.get("method") == "draft_model"):
-        is_medusa_enabled = False
+            raise NotImplementedError(
-        if self.speculative_config is not None:
+                "Speculative decoding with draft model is not supported yet. "
-            # This is supported but experimental (handled below).
+                "Please consider using other speculative decoding methods "
-            speculative_method = self.speculative_config.get("method")
+                "such as ngram, medusa, eagle, or deepseek_mtp.")
-            if speculative_method:
-                if speculative_method in ("ngram", "[ngram]"):
-                    is_ngram_enabled = True
-                elif speculative_method == "medusa":
-                    is_medusa_enabled = True
-                elif speculative_method in ("eagle", "eagle3", "deepseek_mtp"):
-                    is_eagle_enabled = True
-            else:
-                speculative_model = self.speculative_config.get("model")
-                if speculative_model in ("ngram", "[ngram]"):
-                    is_ngram_enabled = True
-            if not (is_ngram_enabled or is_eagle_enabled or is_medusa_enabled):
-                # Other speculative decoding methods are not supported yet.
-                _raise_or_fallback(feature_name="Speculative Decoding",
-                                   recommend_to_remove=False)
-                return False
        # No XFormers so far.
        V1_BACKENDS = [

--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
--- a/vllm/engine/metrics.py
+++ b/vllm/engine/metrics.py
--- a/vllm/engine/metrics_types.py
+++ b/vllm/engine/metrics_types.py
--- a/vllm/engine/output_processor/multi_step.py
+++ b/vllm/engine/output_processor/multi_step.py
@@ -104,11 +104,6 @@ class MultiStepOutputProcessor(SequenceGroupOutputProcessor):
            seqs = sequence_group.get_seqs(
                status=SequenceStatus.FINISHED_ABORTED)
-        for output in outputs:
-            if output.samples[0].output_token != VLLM_INVALID_TOKEN_ID:
-                sequence_group.metrics.spec_token_acceptance_counts[
-                    output.step_index] += 1
        assert seqs, "Expected RUNNING or FINISHED_ABORTED sequences"
        assert len(seqs) == 1, (
            "Beam search not supported in multi-step decoding.")

--- a/vllm/model_executor/layers/rejection_sampler.py
+++ b/vllm/model_executor/layers/rejection_sampler.py
--- a/vllm/model_executor/layers/sampler.py
+++ b/vllm/model_executor/layers/sampler.py
--- a/vllm/model_executor/layers/spec_decode_base_sampler.py
+++ b/vllm/model_executor/layers/spec_decode_base_sampler.py
--- a/vllm/model_executor/layers/typical_acceptance_sampler.py
+++ b/vllm/model_executor/layers/typical_acceptance_sampler.py
--- a/vllm/model_executor/models/eagle.py
+++ b/vllm/model_executor/models/eagle.py
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
--- a/vllm/sequence.py
+++ b/vllm/sequence.py
--- a/vllm/spec_decode/__init__.py
+++ b/vllm/spec_decode/__init__.py
--- a/vllm/spec_decode/batch_expansion.py
+++ b/vllm/spec_decode/batch_expansion.py
--- a/vllm/spec_decode/draft_model_runner.py
+++ b/vllm/spec_decode/draft_model_runner.py
--- a/vllm/spec_decode/interfaces.py
+++ b/vllm/spec_decode/interfaces.py
--- a/vllm/spec_decode/medusa_worker.py
+++ b/vllm/spec_decode/medusa_worker.py