[fix]修复缺少参数等错误

f4cd62b9 · 王敏 · 3c7c9ca2 · f4cd62b9 · f4cd62b9
Commit f4cd62b9 authored Apr 11, 2026 by 王敏
Showing with 3 additions and 1 deletion

vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py .../model_executor/layers/fused_moe/batched_deep_gemm_moe.py +1 -0

vllm/v1/attention/backend.py vllm/v1/attention/backend.py +2 -1

No files found.
--- a/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
+++ b/vllm/model_executor/layers/fused_moe/batched_deep_gemm_moe.py
@@ -590,6 +590,7 @@ class BatchedDeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
        expert_tokens_meta: mk.ExpertTokensMetadata | None,
        apply_router_weight_on_input: bool,
        use_nn_moe: bool | None = False,
+        **_
    ):
        assert expert_tokens_meta is not None
        expert_num_tokens = expert_tokens_meta.expert_num_tokens

--- a/vllm/v1/attention/backend.py
+++ b/vllm/v1/attention/backend.py
@@ -342,7 +342,7 @@ class CommonAttentionMetadata:
    block_table_tensor: torch.Tensor
    slot_mapping: torch.Tensor
-    num_kv_actual_tokens: int
+    num_kv_actual_tokens: int | None = None
    seq_indexes_list: list[int] | None = None
    scatter_indexes_tensor: torch.Tensor | None = None
@@ -434,6 +434,7 @@ class CommonAttentionMetadata:
            else None,
            num_reqs=num_actual_reqs,
            num_actual_tokens=num_actual_tokens,
+            num_kv_actual_tokens=num_actual_tokens,
            max_query_len=self.max_query_len,
            max_seq_len=self.max_seq_len,
            block_table_tensor=self.block_table_tensor[:num_actual_reqs],