Merge branch 'v0.15.1-dev-unified_fix' into 'v0.15.1-dev'

add fa unified attn 导入判断 See merge request dcutoolkit/deeplearing/vllm!509

Merge branch 'v0.15.1-dev-unified_fix' into 'v0.15.1-dev'
add fa unified attn 导入判断 See merge request dcutoolkit/deeplearing/vllm!509
efa6bed2 · wangmin6 · 79052e70 · 3c900b76 · efa6bed2
Commit efa6bed2 authored Mar 17, 2026 by wangmin6
Hide whitespace changes
Inline Side-by-side

Showing with 8 additions and 3 deletions

vllm/v1/attention/ops/triton_unified_attention.py vllm/v1/attention/ops/triton_unified_attention.py +8 -3

No files found.
--- a/vllm/v1/attention/ops/triton_unified_attention.py
+++ b/vllm/v1/attention/ops/triton_unified_attention.py
@@ -13,9 +13,10 @@ from vllm.logger import init_logger
 from vllm.platforms import current_platform
 from vllm.triton_utils import tl, triton
 from vllm import envs
-from flash_attn import (
+try:
-    varlen_fwd_unified,
+    from flash_attn import varlen_fwd_unified
-)
+except Exception:
+    varlen_fwd_unified = None
 logger = init_logger(__name__)
 float8_info = torch.finfo(current_platform.fp8_dtype())
@@ -1045,6 +1046,10 @@ def unified_attention(
                USE_FP8=output_scale is not None,
            )
        else:
+            if varlen_fwd_unified is None:
+                raise RuntimeError(
+                    "flash_attn.varlen_fwd_unified is not available in this flash-attn version"
+                )
            # print("Running FA kernel")
            varlen_fwd_unified(
                q=q,