fix run error

1217257c · zhuwenwen · 8301427e · 1217257c · 1217257c · 1217257c
Commit 1217257c authored Dec 25, 2025 by zhuwenwen
6 changed files
--- a/vllm/attention/ops/flashmla.py
+++ b/vllm/attention/ops/flashmla.py
@@ -226,14 +226,16 @@ def flash_mla_with_kvcache(
            out, softmax_lse = flash_mla_cuda.fwd_kvcache_mla(
                q, 
                k_cache, 
-                None, 
                head_dim_v, 
                cache_seqlens, 
                block_table, 
                softmax_scale,
                causal, 
                tile_scheduler_metadata, 
-                num_splits)
+                num_splits,
+                is_fp8_kvcache,
+                indices,
+            )
        else:
            out, softmax_lse = torch.ops._flashmla_C.fwd_kvcache_mla(
                q,

--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -2062,8 +2062,6 @@ class FusedMoE(CustomOp):
                    router_logits=router_logits,
                    use_nn_moe=self.use_nn_moe,
                    use_fused_gate=self.use_fused_gate,
-                    use_nn_moe=self.use_nn_moe,
-                    use_fused_gate=self.use_fused_gate,
                    i_q=i_q,
                    i_s=i_s,
                )

--- a/vllm/model_executor/layers/rotary_embedding/__init__.py
+++ b/vllm/model_executor/layers/rotary_embedding/__init__.py
@@ -181,16 +181,16 @@ def get_rope(
                        scaling_alpha, 
                        dtype,
                    )
-                else:
-                    rotary_emb = DynamicNTKScalingRotaryEmbedding(
-                        head_size,
-                        rotary_dim,
-                        max_position,
-                        base,
-                        is_neox_style,
-                        scaling_factor,
-                        dtype,
-                    )
+            else:
+                rotary_emb = DynamicNTKScalingRotaryEmbedding(
+                    head_size,
+                    rotary_dim,
+                    max_position,
+                    base,
+                    is_neox_style,
+                    scaling_factor,
+                    dtype,
+                )
        else:
            raise ValueError(
                "Dynamic rope scaling must contain either 'alpha' or 'factor' field"

--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -228,11 +228,10 @@ class RocmPlatform(Platform):
            logger.info_once("Using Sparse MLA backend on V1 engine.")
            return AttentionBackendEnum.ROCM_AITER_MLA_SPARSE.get_path()
                
-        if use_mla:
-            # if use_sparse:
+        if attn_selector_config.use_mla:
+            # if attn_selector_config.use_sparse:
            #     logger.info_once("Using Sparse MLA backend on V1 engine.")
-            #     return ("vllm.v1.attention.backends.mla.flashmla_sparse."
-            #             "FlashMLASparseBackend")
+            #     return AttentionBackendEnum.FLASHMLA_SPARSE.get_path()
                
            use_flashmla = selected_backend == AttentionBackendEnum.FLASHMLA or envs.VLLM_USE_FLASH_MLA 
            use_triton = selected_backend == AttentionBackendEnum.TRITON_MLA or (

--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -56,6 +56,7 @@ from vllm.v1.attention.backends.utils import (
    get_kv_cache_layout,
 )
 from vllm.v1.kv_cache_interface import AttentionSpec
+import vllm.envs as envs

 logger = init_logger(__name__)


--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -81,8 +81,8 @@ class Worker(WorkerBase):
        )

        # configure float32 matmul precision according to vLLM env.
-        precision = envs.VLLM_FLOAT32_MATMUL_PRECISION
-        torch.backends.cuda.matmul.fp32_precision = precision
+        # precision = envs.VLLM_FLOAT32_MATMUL_PRECISION
+        # torch.backends.cuda.matmul.fp32_precision = precision

        if self.model_config.trust_remote_code:
            # note: lazy import to avoid importing torch before initializing