[Model] Add ModelConfig class for GraniteMoeHybrid to override default...

[Model] Add ModelConfig class for GraniteMoeHybrid to override default max_seq_len_to_capture (#20923) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>

[Model] Add ModelConfig class for GraniteMoeHybrid to override default...
[Model] Add ModelConfig class for GraniteMoeHybrid to override default max_seq_len_to_capture (#20923) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>
6cbc4d4b · Thomas Parnell · GitHub · 153c6f1e · 6cbc4d4b
Unverified Commit 6cbc4d4b authored Jul 16, 2025 by Thomas Parnell Committed by GitHub Jul 15, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 14 additions and 0 deletions

vllm/model_executor/models/config.py vllm/model_executor/models/config.py +14 -0

No files found.
--- a/vllm/model_executor/models/config.py
+++ b/vllm/model_executor/models/config.py
@@ -205,6 +205,19 @@ class SnowflakeGteNewModelConfig(VerifyAndUpdateConfig):
        }
+class GraniteMoeHybridModelConfig(VerifyAndUpdateConfig):
+    @staticmethod
+    def verify_and_update_config(vllm_config: "VllmConfig") -> None:
+        config = vllm_config.model_config
+        config.max_seq_len_to_capture = config.max_model_len
+        logger.info(
+            "Setting max_seq_len_to_capture to %d "
+            "to ensure that CUDA graph capture "
+            "covers sequences of length up to max_model_len.",
+            config.max_model_len)
 class HybridAttentionMambaModelConfig(VerifyAndUpdateConfig):
    @classmethod
@@ -297,4 +310,5 @@ MODELS_CONFIG_MAP: dict[str, type[VerifyAndUpdateConfig]] = {
    "Qwen3ForSequenceClassification": Qwen3ForSequenceClassificationConfig,
    "XLMRobertaModel": JinaRobertaModelConfig,
    "JinaVLForRanking": JinaVLForSequenceClassificationConfig,
+    "GraniteMoeHybridForCausalLM": GraniteMoeHybridModelConfig,
 }