[CI/Build] Fix AMD CI: test_cpu_gpu.py (#27388)

Signed-off-by: zhewenli <zhewenli@meta.com>

[CI/Build] Fix AMD CI: test_cpu_gpu.py (#27388)
Signed-off-by: zhewenli <zhewenli@meta.com>
50b788a1 · Zhewen Li · GitHub · fc059c70 · 50b788a1
Unverified Commit 50b788a1 authored Oct 23, 2025 by Zhewen Li Committed by GitHub Oct 23, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 13 additions and 4 deletions

tests/v1/kv_offload/test_cpu_gpu.py tests/v1/kv_offload/test_cpu_gpu.py +13 -4

No files found.
--- a/tests/v1/kv_offload/test_cpu_gpu.py
+++ b/tests/v1/kv_offload/test_cpu_gpu.py
@@ -8,11 +8,20 @@ import torch
 from vllm.platforms import current_platform
 from vllm.v1.attention.backends.flash_attn import FlashAttentionBackend
-from vllm.v1.attention.backends.flashinfer import FlashInferBackend
-from vllm.v1.attention.backends.mla.flashattn_mla import FlashAttnMLABackend
 from vllm.v1.kv_offload.mediums import CPULoadStoreSpec, GPULoadStoreSpec
 from vllm.v1.kv_offload.worker.cpu_gpu import CpuGpuOffloadingHandler
+BACKENDS_TO_TEST = [FlashAttentionBackend]
+if not current_platform.is_rocm():
+    from vllm.v1.attention.backends.flashinfer import FlashInferBackend
+    BACKENDS_TO_TEST.append(FlashInferBackend)
+    from vllm.v1.attention.backends.mla.flashattn_mla import FlashAttnMLABackend
+    BACKENDS_TO_TEST.append(FlashAttnMLABackend)
 NUM_GPU_BLOCKS = [64]
 NUM_CPU_BLOCKS = [256]
 GPU_BLOCK_SIZES = [16]
@@ -55,8 +64,8 @@ def test_transfer(
 ) -> None:
    current_platform.seed_everything(seed)
-    # create per-layer GPU KV caches
+    # create per-layer GPU KV caches based on available attn_backends
-    attn_backends_list = [FlashAttentionBackend, FlashInferBackend, FlashAttnMLABackend]
+    attn_backends_list = BACKENDS_TO_TEST
    gpu_caches = {}
    attn_backends = {}