Default to 'align' mamba cache mode for Mamba-based models when speculative...

Default to 'align' mamba cache mode for Mamba-based models when speculative decoding is enabled (#40454) Signed-off-by: Roi Koren <roik@nvidia.com>

Default to 'align' mamba cache mode for Mamba-based models when speculative...
Default to 'align' mamba cache mode for Mamba-based models when speculative decoding is enabled (#40454) Signed-off-by: Roi Koren <roik@nvidia.com>
f819265a · roikoren755 · GitHub · 936e0b79 · f819265a
Unverified Commit f819265a authored Apr 21, 2026 by roikoren755 Committed by GitHub Apr 21, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 20 additions and 9 deletions

vllm/model_executor/models/config.py vllm/model_executor/models/config.py +20 -9

No files found.
--- a/vllm/model_executor/models/config.py
+++ b/vllm/model_executor/models/config.py
@@ -325,15 +325,26 @@ class MambaModelConfig(VerifyAndUpdateConfig):

        if cache_config.enable_prefix_caching:
            if cache_config.mamba_cache_mode == "none":
-                cache_config.mamba_cache_mode = (
-                    "all" if model_config.supports_mamba_prefix_caching else "align"
-                )
-                logger.warning(
-                    "Mamba cache mode is set to '%s' for %s by default "
-                    "when prefix caching is enabled",
-                    cache_config.mamba_cache_mode,
-                    model_config.architecture,
-                )
+                if (
+                    model_config.supports_mamba_prefix_caching
+                    and vllm_config.speculative_config is not None
+                ):
+                    cache_config.mamba_cache_mode = "align"
+                    logger.warning(
+                        "Mamba cache mode is set to 'align' for %s by default "
+                        "when prefix caching and speculative decoding are enabled",
+                        model_config.architecture,
+                    )
+                else:
+                    cache_config.mamba_cache_mode = (
+                        "all" if model_config.supports_mamba_prefix_caching else "align"
+                    )
+                    logger.warning(
+                        "Mamba cache mode is set to '%s' for %s by default "
+                        "when prefix caching is enabled",
+                        cache_config.mamba_cache_mode,
+                        model_config.architecture,
+                    )
            if (
                cache_config.mamba_cache_mode == "all"
                and not model_config.supports_mamba_prefix_caching