VLLM_ENCODER_CACHE_SIZE控制encoder_cache_size大小

2d940766 · guanyu1 · 06185134 · 2d940766 · 2d940766
Commit 2d940766 authored Mar 24, 2026 by guanyu1
Show whitespace changes
Inline Side-by-side

Showing with 21 additions and 3 deletions

vllm/envs.py vllm/envs.py +3 -0

vllm/v1/core/encoder_cache_manager.py vllm/v1/core/encoder_cache_manager.py +18 -3

No files found.
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -157,6 +157,7 @@ if TYPE_CHECKING:
    VLLM_MXFP4_USE_MARLIN: bool | None = None
    VLLM_DEEPEPLL_NVFP4_DISPATCH: bool = False
    VLLM_V1_USE_OUTLINES_CACHE: bool = False
+    VLLM_ENCODER_CACHE_SIZE: int | None = None
    VLLM_TPU_BUCKET_PADDING_GAP: int = 0
    VLLM_TPU_MOST_MODEL_LEN: int | None = None
    VLLM_TPU_USING_PATHWAYS: bool = False
@@ -1925,6 +1926,8 @@ environment_variables: dict[str, Callable[[], Any]] = {
    "VLLM_USE_MOE_W16A16_TRITON":
        lambda: (os.environ.get("VLLM_USE_MOE_W16A16_TRITON", "0").lower() in
                 ("true", "1")),
+    "VLLM_ENCODER_CACHE_SIZE":
+        lambda: maybe_convert_int(os.environ.get("VLLM_ENCODER_CACHE_SIZE", None)),
    #If set to 1/True, enable the V1 fast token-id copy path in InputBatch.
    "VLLM_V1_FAST_TOKEN_ID_COPY":
        lambda: (os.environ.get("VLLM_V1_FAST_TOKEN_ID_COPY", "False").lower() in

--- a/vllm/v1/core/encoder_cache_manager.py
+++ b/vllm/v1/core/encoder_cache_manager.py
@@ -5,6 +5,7 @@ from collections import OrderedDict
 from collections.abc import Mapping
 from typing import TYPE_CHECKING
+import vllm.envs as envs
 from vllm.logger import init_logger
 from vllm.multimodal import MultiModalRegistry
 from vllm.v1.request import Request
@@ -15,6 +16,16 @@ if TYPE_CHECKING:
 logger = init_logger(__name__)
+def _get_encoder_cache_size_override() -> int | None:
+    encoder_cache_size_override = envs.VLLM_ENCODER_CACHE_SIZE
+    if encoder_cache_size_override is not None:
+        logger.info_once(
+            "Using VLLM_ENCODER_CACHE_SIZE=%d to override encoder cache size.",
+            encoder_cache_size_override,
+        )
+    return encoder_cache_size_override
 class EncoderCacheManager:
    """Manages caching of encoder outputs for multimodal models in vLLM V1.
@@ -342,6 +353,10 @@ def compute_mm_encoder_budget(
    encoder_compute_budget = max(
        scheduler_config.max_num_encoder_input_tokens, max_tokens_per_mm_item
    )
+    encoder_cache_size_override = _get_encoder_cache_size_override()
+    if encoder_cache_size_override is not None:
+        encoder_cache_size = encoder_cache_size_override
+    else:
        encoder_cache_size = max(
            scheduler_config.encoder_cache_size, max_tokens_per_mm_item
        )