[BugFix] Lazily import XgrammarBackend to avoid early cuda init (#15171)

Signed-off-by: Nick Hill <nhill@redhat.com>

[BugFix] Lazily import XgrammarBackend to avoid early cuda init (#15171)
Signed-off-by: Nick Hill <nhill@redhat.com>
c47aafa3 · Nick Hill · GitHub · cfbca8a2 · c47aafa3
Unverified Commit c47aafa3 authored Mar 19, 2025 by Nick Hill Committed by GitHub Mar 20, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

vllm/v1/structured_output/__init__.py vllm/v1/structured_output/__init__.py +3 -1

No files found.
--- a/vllm/v1/structured_output/__init__.py
+++ b/vllm/v1/structured_output/__init__.py
@@ -9,7 +9,6 @@ from vllm.config import VllmConfig
 from vllm.logger import init_logger
 from vllm.v1.structured_output.backend_types import (StructuredOutputBackend,
                                                     StructuredOutputGrammar)
-from vllm.v1.structured_output.backend_xgrammar import XgrammarBackend
 if TYPE_CHECKING:
    import numpy as np
@@ -47,6 +46,9 @@ class StructuredOutputManager:
        if self.backend is None:
            backend_name = request.sampling_params.guided_decoding.backend_name
            if backend_name == "xgrammar":
+                from vllm.v1.structured_output.backend_xgrammar import (
+                    XgrammarBackend)
                self.backend = XgrammarBackend(self.vllm_config)
            else:
                raise ValueError(