[ROCm][Bugfix] Bring back fallback to eager mode removed in #14917, but for ROCm only (#15413)

Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>

[ROCm][Bugfix] Bring back fallback to eager mode removed in #14917, but for ROCm only (#15413)
Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>
a6d042df · Gregory Shtrasberg · GitHub · 40a36ccf · a6d042df
Unverified Commit a6d042df authored Apr 04, 2025 by Gregory Shtrasberg Committed by GitHub Apr 04, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 8 additions and 1 deletion

vllm/config.py vllm/config.py +8 -1

No files found.
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -29,7 +29,7 @@ from vllm.logger import init_logger
 from vllm.model_executor.layers.quantization import (QUANTIZATION_METHODS,
                                                     get_quantization_config)
 from vllm.model_executor.models import ModelRegistry
-from vllm.platforms import CpuArchEnum
+from vllm.platforms import CpuArchEnum, current_platform
 from vllm.sampling_params import GuidedDecodingParams
 from vllm.tracing import is_otel_available, otel_import_error_traceback
 from vllm.transformers_utils.config import (
@@ -684,6 +684,13 @@ class ModelConfig:
            self.max_seq_len_to_capture = self.max_model_len
        self.max_seq_len_to_capture = min(self.max_seq_len_to_capture,
                                          self.max_model_len)
+        ROCM_UNSUPPORTED_MODELS = ['mllama']
+        if (self.hf_config.model_type in ROCM_UNSUPPORTED_MODELS
+                and not self.enforce_eager and current_platform.is_rocm()):
+            logger.warning(
+                "CUDA graph is not supported for %s on ROCm yet, fallback "
+                "to the eager mode.", self.hf_config.model_type)
+            self.enforce_eager = True

    def _verify_bnb_config(self) -> None:
        """