set VLLM_USE_FLASH_ATTN_FP8=1 and VLLM_USE_FLASH_MLA_FP8=1

25e16eea · zhuwenwen · a50ece3a · 25e16eea
Commit 25e16eea authored Jan 17, 2026 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

vllm/envs.py vllm/envs.py +2 -2

No files found.
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -1069,7 +1069,7 @@ environment_variables: dict[str, Callable[[], Any]] = {
    # If set, vLLM will use FLASH ATTN fp8 attention optimizations.
    "VLLM_USE_FLASH_ATTN_FP8":
-    lambda: bool(int(os.getenv("VLLM_USE_FLASH_ATTN_FP8", "0"))),
+    lambda: bool(int(os.getenv("VLLM_USE_FLASH_ATTN_FP8", "1"))),
    # If set, vLLM will use FLASH MLA attention optimizations.
    "VLLM_USE_FLASH_MLA":
@@ -1077,7 +1077,7 @@ environment_variables: dict[str, Callable[[], Any]] = {
    # If set, vLLM will use FLASH MLA fp8 attention optimizations.
    "VLLM_USE_FLASH_MLA_FP8":
-    lambda: bool(int(os.getenv("VLLM_USE_FLASH_MLA_FP8", "0"))),
+    lambda: bool(int(os.getenv("VLLM_USE_FLASH_MLA_FP8", "1"))),
    # flag to control vllm to use optimized kernels
    "VLLM_USE_OPT_OP":