[Bugfix] Set enforce_eager automatically for mllama (#12127)

Signed-off-by: Chen Zhang <zhangch99@outlook.com>

[Bugfix] Set enforce_eager automatically for mllama (#12127)
Signed-off-by: Chen Zhang <zhangch99@outlook.com>
d06e8240 · Chen Zhang · GitHub · 62b06ba2 · d06e8240 · d06e8240
Unverified Commit d06e8240 authored Jan 17, 2025 by Chen Zhang Committed by GitHub Jan 16, 2025
3 changed files
--- a/examples/offline_inference/vision_language.py
+++ b/examples/offline_inference/vision_language.py
@@ -325,7 +325,6 @@ def run_mllama(question: str, modality: str):
        model=model_name,
        max_model_len=4096,
        max_num_seqs=16,
-        enforce_eager=True,
        disable_mm_preprocessor_cache=args.disable_mm_preprocessor_cache,
    )


--- a/examples/offline_inference/vision_language_multi_image.py
+++ b/examples/offline_inference/vision_language_multi_image.py
@@ -186,7 +186,6 @@ def load_mllama(question, image_urls: List[str]) -> ModelRequestData:
        model=model_name,
        max_model_len=4096,
        max_num_seqs=16,
-        enforce_eager=True,
        limit_mm_per_prompt={"image": len(image_urls)},
    )


--- a/vllm/config.py
+++ b/vllm/config.py
@@ -607,10 +607,12 @@ class ModelConfig:
        self.max_seq_len_to_capture = min(self.max_seq_len_to_capture,
                                          self.max_model_len)

-        if (self.hf_config.model_type == 'deepseek_v3'
+        MODEL_NOT_SUPPORT_CUDA_GRAPH = ['deepseek_v3', 'mllama']
+        if (self.hf_config.model_type in MODEL_NOT_SUPPORT_CUDA_GRAPH
                and not self.enforce_eager):
-            logger.warning("CUDA graph is not supported for Deepseek V3 yet, "
-                           "fallback to the eager mode.")
+            logger.warning(
+                "CUDA graph is not supported for %s yet, fallback to the eager "
+                "mode.", self.hf_config.model_type)
            self.enforce_eager = True

    def _verify_bnb_config(self) -> None: