[V1][Minor] Do not print attn backend twice (#13985)

Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>

[V1][Minor] Do not print attn backend twice (#13985)
Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
3b5567a2 · Woosuk Kwon · GitHub · fdcc4053 · 3b5567a2
Unverified Commit 3b5567a2 authored Feb 28, 2025 by Woosuk Kwon Committed by GitHub Mar 01, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 3 deletions

vllm/platforms/cuda.py vllm/platforms/cuda.py +4 -3

No files found.
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -178,7 +178,8 @@ class CudaPlatformBase(Platform):
                        block_size)
                else:
                    if use_v1:
-                        logger.info("Using FlashMLA backend on V1 engine.")
+                        logger.info_once(
+                            "Using FlashMLA backend on V1 engine.")
                        return ("vllm.v1.attention.backends.mla."
                                "flashmla.FlashMLABackend")
                    else:
@@ -187,14 +188,14 @@ class CudaPlatformBase(Platform):
                                "flashmla.FlashMLABackend")

            if use_v1:
-                logger.info("Using Triton MLA backend on V1 engine.")
+                logger.info_once("Using Triton MLA backend on V1 engine.")
                return ("vllm.v1.attention.backends.mla."
                        "triton_mla.TritonMLABackend")
            else:
                logger.info("Using Triton MLA backend.")
                return "vllm.attention.backends.triton_mla.TritonMLABackend"
        if use_v1:
-            logger.info("Using Flash Attention backend on V1 engine.")
+            logger.info_once("Using Flash Attention backend on V1 engine.")
            return ("vllm.v1.attention.backends.flash_attn."
                    "FlashAttentionBackend")
        if selected_backend == _Backend.FLASHINFER: