fix fHAS_FLASH_ATTN_V2_ROCM flag bug for DCU

d6af14b2 · huangwb · 5a1cf2f0 · d6af14b2
Commit d6af14b2 authored May 22, 2024 by huangwb
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

server/text_generation_server/utils/flash_attn.py server/text_generation_server/utils/flash_attn.py +1 -1

No files found.
--- a/server/text_generation_server/utils/flash_attn.py
+++ b/server/text_generation_server/utils/flash_attn.py
@@ -45,7 +45,7 @@ if IS_CUDA_SYSTEM or IS_ROCM_SYSTEM:
                "Use the official Docker image (ghcr.io/huggingface/text-generation-inference:latest) "
                f"or install flash attention v2 with `cd server && make install install-flash-attention-v2{architecture_suffix}`"
            )
-        if not (is_sm8x or is_sm90):
+        if not (is_sm8x or is_sm90) and IS_CUDA_SYSTEM:
            raise ImportError(
                f"GPU with CUDA capability {major} {minor} is not supported for "
                "Flash Attention V2"