restore v32 support

81eaff62 · zhuwenwen · e0ba5f60 · 81eaff62 · 81eaff62 · 81eaff62
Commit 81eaff62 authored Nov 13, 2025 by zhuwenwen
3 changed files
--- a/vllm/model_executor/models/config.py
+++ b/vllm/model_executor/models/config.py
@@ -410,8 +410,8 @@ class DeepseekV32ForCausalLM(VerifyAndUpdateConfig):
        hf_config = vllm_config.model_config.hf_config

        # Mirror the check in vllm/model_executor/models/deepseek_v2.py
-        # is_v32 = hasattr(hf_config, "index_topk")
-        # assert is_v32
+        is_v32 = hasattr(hf_config, "index_topk")
+        assert is_v32

        # For DeepSeekV3.2, we use a custom fp8 format as default (i.e.
        #   "auto")

--- a/vllm/model_executor/models/deepseek_mtp.py
+++ b/vllm/model_executor/models/deepseek_mtp.py
@@ -65,8 +65,7 @@ class DeepSeekMultiTokenPredictorLayer(nn.Module):
                                 config.hidden_size,
                                 bias=False)

-        # self.is_v32 = hasattr(config, "index_topk")
-        self.is_v32 = False
+        self.is_v32 = hasattr(config, "index_topk")
        if self.is_v32:
            topk_tokens = config.index_topk
            topk_indices_buffer = torch.empty(

--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -954,8 +954,7 @@ class DeepseekV2MLAAttention(nn.Module):
            mscale = yarn_get_mscale(scaling_factor, float(mscale_all_dim))
            self.scaling = self.scaling * mscale * mscale

-        # self.is_v32 = hasattr(config, "index_topk")
-        self.is_v32 = False
+        self.is_v32 = hasattr(config, "index_topk")

        if self.is_v32:
            self.indexer = Indexer(vllm_config, config, hidden_size,
@@ -1176,8 +1175,7 @@ class DeepseekV2Model(nn.Module):
        self.config = config

        self.vocab_size = config.vocab_size
-        # self.is_v32 = hasattr(config, "index_topk")
-        self.is_v32 = False
+        self.is_v32 = hasattr(config, "index_topk")
        if self.is_v32:
            topk_tokens = config.index_topk
            topk_indices_buffer = torch.empty(