[ROCm][CI] Fix flaky Cohere/OpenAI embedding parity test (#37616)

Signed-off-by: Andreas Karatzas <akaratza@amd.com>

[ROCm][CI] Fix flaky Cohere/OpenAI embedding parity test (#37616)
Signed-off-by: Andreas Karatzas <akaratza@amd.com>
f262a62a · Andreas Karatzas · GitHub · 9ac2fcaf · f262a62a · f262a62a
Unverified Commit f262a62a authored Mar 25, 2026 by Andreas Karatzas Committed by GitHub Mar 25, 2026
4 changed files
--- a/tests/entrypoints/pooling/embed/test_cohere_openai_parity.py
+++ b/tests/entrypoints/pooling/embed/test_cohere_openai_parity.py
@@ -10,7 +10,7 @@ import numpy as np
 import pytest
 import requests
-from tests.utils import RemoteOpenAIServer
+from tests.utils import ROCM_EXTRA_ARGS, RemoteOpenAIServer
 MODEL_NAME = "BAAI/bge-base-en-v1.5"
 DTYPE = "bfloat16"
@@ -28,7 +28,7 @@ def server():
        "512",
        "--gpu-memory-utilization",
        "0.02",
-    ]
+    ] + ROCM_EXTRA_ARGS
    with RemoteOpenAIServer(MODEL_NAME, args) as remote_server:
        yield remote_server

--- a/tests/entrypoints/pooling/embed/test_online_dimensions.py
+++ b/tests/entrypoints/pooling/embed/test_online_dimensions.py
@@ -10,7 +10,7 @@ import pytest
 from tests.conftest import HfRunner
 from tests.models.language.pooling.embed_utils import run_embedding_correctness_test
 from tests.models.utils import EmbedModelInfo
-from tests.utils import RemoteOpenAIServer
+from tests.utils import ROCM_EXTRA_ARGS, RemoteOpenAIServer
 from vllm.entrypoints.pooling.embed.protocol import EmbeddingResponse
 from vllm.platforms import current_platform
@@ -49,7 +49,7 @@ def server(model_info, dtype: str):
        "--enforce-eager",
        "--max-model-len",
        "512",
-    ]
+    ] + ROCM_EXTRA_ARGS
    if model_info.name == "Snowflake/snowflake-arctic-embed-m-v1.5":
        # Manually enable Matryoshka Embeddings

--- a/vllm/entrypoints/pooling/base/serving.py
+++ b/vllm/entrypoints/pooling/base/serving.py
@@ -118,6 +118,7 @@ class PoolingServing:
        )
        pooling_params = self.io_processor.create_pooling_params(ctx.request)
+        pooling_params.verify(self.model_config)
        for i, engine_prompt in enumerate(ctx.engine_prompts):
            prompt_request_id = (

--- a/vllm/entrypoints/utils.py
+++ b/vllm/entrypoints/utils.py
@@ -309,6 +309,9 @@ def create_error_response(
    if isinstance(message, Exception):
        exc = message
+        logger.debug(
+            "create_error_response called with %s: %s", type(exc).__name__, exc
+        )
        from vllm.exceptions import VLLMNotFoundError, VLLMValidationError