fix run error

1217257c · zhuwenwen · 8301427e · 1217257c · 1217257c · 1217257c
Commit 1217257c authored Dec 25, 2025 by zhuwenwen
6 changed files
--- a/vllm/attention/ops/flashmla.py
+++ b/vllm/attention/ops/flashmla.py
@@ -226,14 +226,16 @@ def flash_mla_with_kvcache(
            out, softmax_lse = flash_mla_cuda.fwd_kvcache_mla(
                q, 
                k_cache, 
-                None, 
                head_dim_v, 
                cache_seqlens, 
                block_table, 
                softmax_scale,
                causal, 
                tile_scheduler_metadata, 
-                num_splits)
+                num_splits,
+                is_fp8_kvcache,
+                indices,
+            )
        else:
            out, softmax_lse = torch.ops._flashmla_C.fwd_kvcache_mla(
                q,

--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -2062,8 +2062,6 @@ class FusedMoE(CustomOp):
                    router_logits=router_logits,
                    use_nn_moe=self.use_nn_moe,
                    use_fused_gate=self.use_fused_gate,
-                    use_nn_moe=self.use_nn_moe,
-                    use_fused_gate=self.use_fused_gate,
                    i_q=i_q,
                    i_s=i_s,
                )

--- a/vllm/model_executor/layers/rotary_embedding/__init__.py
+++ b/vllm/model_executor/layers/rotary_embedding/__init__.py
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -228,11 +228,10 @@ class RocmPlatform(Platform):
            logger.info_once("Using Sparse MLA backend on V1 engine.")
            return AttentionBackendEnum.ROCM_AITER_MLA_SPARSE.get_path()
-        if use_mla:
+        if attn_selector_config.use_mla:
-            # if use_sparse:
+            # if attn_selector_config.use_sparse:
            #     logger.info_once("Using Sparse MLA backend on V1 engine.")
-            #     return ("vllm.v1.attention.backends.mla.flashmla_sparse."
+            #     return AttentionBackendEnum.FLASHMLA_SPARSE.get_path()
-            #             "FlashMLASparseBackend")
            use_flashmla = selected_backend == AttentionBackendEnum.FLASHMLA or envs.VLLM_USE_FLASH_MLA 
            use_triton = selected_backend == AttentionBackendEnum.TRITON_MLA or (

--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -56,6 +56,7 @@ from vllm.v1.attention.backends.utils import (
    get_kv_cache_layout,
 )
 from vllm.v1.kv_cache_interface import AttentionSpec
+import vllm.envs as envs
 logger = init_logger(__name__)

--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -81,8 +81,8 @@ class Worker(WorkerBase):
        )
        # configure float32 matmul precision according to vLLM env.
-        precision = envs.VLLM_FLOAT32_MATMUL_PRECISION
+        # precision = envs.VLLM_FLOAT32_MATMUL_PRECISION
-        torch.backends.cuda.matmul.fp32_precision = precision
+        # torch.backends.cuda.matmul.fp32_precision = precision
        if self.model_config.trust_remote_code:
            # note: lazy import to avoid importing torch before initializing