[Bugfix] Fix broken GritLM model and tests (missing pooling_metadata) (#16631)

Signed-off-by: Pooya Davoodi <pooya.davoodi@parasail.io>

[Bugfix] Fix broken GritLM model and tests (missing pooling_metadata) (#16631)
Signed-off-by: Pooya Davoodi <pooya.davoodi@parasail.io>
bc5dd4f6 · Pooya Davoodi · GitHub · dbb036cf · bc5dd4f6 · bc5dd4f6
Unverified Commit bc5dd4f6 authored Apr 14, 2025 by Pooya Davoodi Committed by GitHub Apr 14, 2025
Showing with 13 additions and 11 deletions

tests/models/embedding/language/test_gritlm.py tests/models/embedding/language/test_gritlm.py +11 -10

vllm/model_executor/models/gritlm.py vllm/model_executor/models/gritlm.py +2 -1

No files found.
--- a/tests/models/embedding/language/test_gritlm.py
+++ b/tests/models/embedding/language/test_gritlm.py
@@ -57,24 +57,25 @@ def test_find_array(monkeypatch: pytest.MonkeyPatch):
 def server_embedding():
    # GritLM embedding implementation is only supported by XFormers backend.
    args = ["--task", "embed", "--max_model_len", str(MAX_MODEL_LEN)]
-    with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
+    with pytest.MonkeyPatch.context() as m:
-        yield remote_server
+        m.setenv(STR_BACKEND_ENV_VAR, "XFORMERS")
+        with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
+            yield remote_server
 @pytest.fixture(scope="module")
 def server_generate():
    args = ["--task", "generate", "--max_model_len", str(MAX_MODEL_LEN)]
-    with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
+    with pytest.MonkeyPatch.context() as m:
-        yield remote_server
+        m.setenv(STR_BACKEND_ENV_VAR, "XFORMERS")
+        with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
+            yield remote_server
 @pytest_asyncio.fixture
-async def client_embedding(monkeypatch: pytest.MonkeyPatch,
+async def client_embedding(server_embedding: RemoteOpenAIServer):
-                           server_embedding: RemoteOpenAIServer):
+    async with server_embedding.get_async_client() as async_client:
-    with monkeypatch.context() as m:
+        yield async_client
-        m.setenv("VLLM_ATTENTION_BACKEND", "XFORMERS")
-        async with server_embedding.get_async_client() as async_client:
-            yield async_client
 @pytest_asyncio.fixture

--- a/vllm/model_executor/models/gritlm.py
+++ b/vllm/model_executor/models/gritlm.py
@@ -170,7 +170,8 @@ class GritLMPooler(nn.Module):
        mean_embeddings = sum_embeddings / num_non_instruction_tokens.unsqueeze(
            1)
-        pooled_data = self.head(mean_embeddings)
+        pooled_data = self.head(mean_embeddings,
+                                pooling_metadata=pooling_metadata)
        pooled_outputs = [
            PoolingSequenceGroupOutput(data) for data in pooled_data