only support fp8 e4m3 on nmz

625b0b5e · zhuwenwen · a3488ab0 · 625b0b5e
Commit 625b0b5e authored Jan 23, 2026 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

vllm/v1/attention/backends/flash_attn.py vllm/v1/attention/backends/flash_attn.py +4 -1

No files found.
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -142,7 +142,10 @@ class FlashAttentionBackend(AttentionBackend):
    @staticmethod
    def get_fp8_dtype_for_flashattn(kv_cache_dtype: str) -> torch.dtype:
        if kv_cache_dtype in ("fp8", "fp8_e4m3"):
-            return torch.float8_e4m3fn
+            if torch.cuda.get_device_properties("cuda").gcnArchName.split(':')[0] == "gfx938":
+                return torch.float8_e4m3fn
+            else:
+                raise ValueError(f"Unsupported FP8 dtype: {kv_cache_dtype}")
        elif kv_cache_dtype in ("fp8_e5m2"):
            return torch.float8_e5m2
        else: