[V1][Structured Output] Clear xgrammar compiler object when engine core shut...

[V1][Structured Output] Clear xgrammar compiler object when engine core shut down to avoid nanobind leaked warning (#16954) Signed-off-by: shen-shanshan <467638484@qq.com>

[V1][Structured Output] Clear xgrammar compiler object when engine core shut...
[V1][Structured Output] Clear xgrammar compiler object when engine core shut down to avoid nanobind leaked warning (#16954) Signed-off-by: shen-shanshan <467638484@qq.com>
b724afe3 · Shanshan Shen · GitHub · 21f4f1c9 · b724afe3 · b724afe3
Unverified Commit b724afe3 authored Apr 24, 2025 by Shanshan Shen Committed by GitHub Apr 24, 2025
5 changed files
--- a/vllm/v1/engine/core.py
+++ b/vllm/v1/engine/core.py
@@ -253,6 +253,7 @@ class EngineCore:
        return engine_core_outputs

    def shutdown(self):
+        self.structured_output_manager.clear_backend()
        if self.model_executor:
            self.model_executor.shutdown()


--- a/vllm/v1/structured_output/__init__.py
+++ b/vllm/v1/structured_output/__init__.py
@@ -107,3 +107,7 @@ class StructuredOutputManager:
        # np.ndarray, because that is much more efficient for serialization
        # and deserialization when sending this to the GPU workers.
        return bitmask_tensor.numpy()
+
+    def clear_backend(self) -> None:
+        if self.backend is not None:
+            self.backend.destroy()
--- a/vllm/v1/structured_output/backend_guidance.py
+++ b/vllm/v1/structured_output/backend_guidance.py
@@ -108,6 +108,9 @@ class GuidanceBackend(StructuredOutputBackend):
        return llguidance_torch.allocate_token_bitmask(
            max_num_seqs, self.ll_tokenizer.vocab_size)

+    def destroy(self):
+        pass
+

 @dataclass
 class GuidanceGrammar(StructuredOutputGrammar):

--- a/vllm/v1/structured_output/backend_types.py
+++ b/vllm/v1/structured_output/backend_types.py
@@ -87,3 +87,9 @@ class StructuredOutputBackend(ABC):
            max_num_seqs (int): The maximum number of sequences for which
              to allocate the bitmask.
        """
+
+    @abstractmethod
+    def destroy(self):
+        """
+        Backend-specific cleanup.
+        """
--- a/vllm/v1/structured_output/backend_xgrammar.py
+++ b/vllm/v1/structured_output/backend_xgrammar.py
@@ -124,6 +124,9 @@ class XgrammarBackend(StructuredOutputBackend):
    def allocate_token_bitmask(self, max_num_seqs: int):
        return xgr.allocate_token_bitmask(max_num_seqs, self.vocab_size)

+    def destroy(self):
+        del self.compiler
+

 @dataclass
 class XgrammarGrammar(StructuredOutputGrammar):