use reshape_and_cache_cuda for bf16

eb8b6889 · zhuwenwen · a27f634a · eb8b6889
Commit eb8b6889 authored Feb 10, 2026 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 1 addition and 1 deletion

vllm/v1/attention/backends/flash_attn.py vllm/v1/attention/backends/flash_attn.py +1 -1

No files found.
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -556,7 +556,7 @@ class FlashAttentionImpl(AttentionImpl):
                    layer._v_scale,
                )
            else:
-                if envs.VLLM_USE_OPT_RESHAPE_AND_CACHE and key.dtype == value.dtype == torch.float16:
+                if envs.VLLM_USE_OPT_RESHAPE_AND_CACHE:
                    from lightop import reshape_and_cache_cuda
                    reshape_and_cache_cuda(
                        key,