fix: 修改attetion这里的import bug

8cfbe041 · wujl5 · 4f11b099 · 8cfbe041
Commit 8cfbe041 authored Nov 27, 2025 by wujl5
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 1 deletion

vllm/v1/attention/backends/flash_attn.py vllm/v1/attention/backends/flash_attn.py +2 -1

No files found.
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -566,8 +566,8 @@ class FlashAttentionImpl(AttentionImpl):
                    layer._v_scale,
                )
            else:
-                from lightop import reshape_and_cache_cuda
                if envs.VLLM_USE_OPT_RESHAPE_AND_CACHE and key.dtype == value.dtype == "fp16":
+                    from lightop import reshape_and_cache_cuda
                    reshape_and_cache_cuda(
                        key, value,
                        key_cache, value_cache,
@@ -576,6 +576,7 @@ class FlashAttentionImpl(AttentionImpl):
                        layer._k_scale, layer._v_scale
                    )
                else:
+                    from vllm.attention.utils.fa_utils import reshape_and_cache_cuda
                    reshape_and_cache_cuda(
                        key,
                        value,