set default block_size and pa

b61f7a69 · zhuwenwen · 1092a467 · b61f7a69 · b61f7a69
Commit b61f7a69 authored Jul 17, 2025 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 3 deletions

vllm/attention/layer.py vllm/attention/layer.py +2 -2

vllm/envs.py vllm/envs.py +1 -1

No files found.
--- a/vllm/attention/layer.py
+++ b/vllm/attention/layer.py
@@ -75,7 +75,7 @@ class Attention(nn.Module):
            calculate_kv_scales = cache_config.calculate_kv_scales
        else:
            kv_cache_dtype = "auto"
-            block_size = 16
+            block_size = 64
            is_attention_free = False
            calculate_kv_scales = False
        if num_kv_heads is None:
@@ -298,7 +298,7 @@ class MultiHeadAttention(nn.Module):
        attn_backend = get_attn_backend(head_size,
                                        dtype,
                                        kv_cache_dtype=None,
-                                        block_size=16,
+                                        block_size=64,
                                        is_attention_free=False)
        backend = backend_name_to_enum(attn_backend.get_name())
        if backend in {_Backend.FLASH_ATTN, _Backend.FLASH_ATTN_VLLM_V1}:

--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -995,7 +995,7 @@ environment_variables: dict[str, Callable[[], Any]] = {
    
    # vLLM will use FlashAttention Backend for page attention computation on rocm
    "VLLM_USE_FLASH_ATTN_PA":
-    lambda: (os.environ.get("VLLM_USE_FLASH_ATTN_PA", "False").lower() in
+    lambda: (os.environ.get("VLLM_USE_FLASH_ATTN_PA", "True").lower() in
             ("true", "1")),
    
    # vLLM will use apex for rmsnorm