the prefix cache interface implemented using fa on kme

651e756b · zhuwenwen · dc54fefe · 651e756b · 651e756b
Commit 651e756b authored Nov 07, 2025 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 7 deletions

vllm/platforms/rocm.py vllm/platforms/rocm.py +1 -6

vllm/utils/__init__.py vllm/utils/__init__.py +0 -1

No files found.
--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -16,15 +16,12 @@ from vllm.utils import cuda_device_count_stateless
 from .interface import DeviceCapability, Platform, PlatformEnum, _Backend
-from vllm.utils import is_kme, SUPPORT_TC
+from vllm.utils import SUPPORT_TC
 if not SUPPORT_TC:
    os.environ['VLLM_USE_V1'] = '0'
    os.environ['VLLM_USE_FLASH_ATTN_PA'] = '0'
    os.environ['VLLM_USE_FLASH_MLA'] = '0'
-if is_kme:
-    os.environ['VLLM_USE_FLASH_ATTN_PA'] = '0'
 if TYPE_CHECKING:
    from vllm.config import ModelConfig, VllmConfig
@@ -299,8 +296,6 @@ class RocmPlatform(Platform):
                logger.info("flash_attn is not supported on NAVI GPUs.")
        else:
            logger.info("%s is not supported in AMD GPUs.", selected_backend)
-        if is_kme:
-            os.environ['VLLM_USE_TRITON_FLASH_ATTN'] = '1'
        logger.info("Using ROCmFlashAttention backend.")
        return "vllm.attention.backends.rocm_flash_attn.ROCmFlashAttentionBackend"  # noqa: E501

--- a/vllm/utils/__init__.py
+++ b/vllm/utils/__init__.py
@@ -85,7 +85,6 @@ POOLING_MODEL_MAX_NUM_BATCHED_TOKENS = 32768
 MULTIMODAL_MODEL_MAX_NUM_BATCHED_TOKENS = 5120
 GPU_ARCH = torch.cuda.get_device_properties("cuda").gcnArchName
-is_kme = any(arch in GPU_ARCH for arch in ["gfx928"])
 SUPPORT_TC = any(arch in GPU_ARCH for arch in ["gfx928", "gfx936"])
 def _generate_random_int8(