[Refactor] Move serve entrypoint tests under tests/entrypoints/serve/ (#37595)

Signed-off-by: sfeng33 <4florafeng@gmail.com>

[Refactor] Move serve entrypoint tests under tests/entrypoints/serve/ (#37595)
Signed-off-by: sfeng33 <4florafeng@gmail.com>
6050b93b · Flora Feng · GitHub · 5a4a1795 · 6050b93b · 6050b93b
Unverified Commit 6050b93b authored Mar 20, 2026 by Flora Feng Committed by GitHub Mar 20, 2026
11 changed files
--- a/.buildkite/test-amd.yaml
+++ b/.buildkite/test-amd.yaml
@@ -223,7 +223,7 @@ steps:
  - vllm/platforms/rocm.py
  commands:
  - pytest -v -s entrypoints/openai/tool_parsers
-  - pytest -v -s entrypoints/ --ignore=entrypoints/llm --ignore=entrypoints/rpc --ignore=entrypoints/sleep --ignore=entrypoints/instrumentator --ignore=entrypoints/openai --ignore=entrypoints/offline_mode --ignore=entrypoints/test_chat_utils.py  --ignore=entrypoints/pooling
+  - pytest -v -s entrypoints/ --ignore=entrypoints/llm --ignore=entrypoints/rpc --ignore=entrypoints/sleep --ignore=entrypoints/serve/instrumentator --ignore=entrypoints/openai --ignore=entrypoints/offline_mode --ignore=entrypoints/test_chat_utils.py  --ignore=entrypoints/pooling


 - label: Entrypoints Integration (LLM) # TBD
@@ -254,11 +254,11 @@ steps:
  source_file_dependencies:
  - vllm/
  - tests/entrypoints/rpc
-  - tests/entrypoints/instrumentator
+  - tests/entrypoints/serve/instrumentator
  - tests/tool_use
  commands:
  - export VLLM_WORKER_MULTIPROC_METHOD=spawn
-  - pytest -v -s entrypoints/instrumentator
+  - pytest -v -s entrypoints/serve/instrumentator
  - PYTHONPATH=/vllm-workspace pytest -v -s entrypoints/rpc
  - pytest -v -s tool_use

@@ -1475,11 +1475,11 @@ steps:
  source_file_dependencies:
  - vllm/
  - tests/entrypoints/rpc
-  - tests/entrypoints/instrumentator
+  - tests/entrypoints/serve/instrumentator
  - tests/tool_use
  commands:
  - export VLLM_WORKER_MULTIPROC_METHOD=spawn
-  - pytest -v -s entrypoints/instrumentator
+  - pytest -v -s entrypoints/serve/instrumentator
  - PYTHONPATH=/vllm-workspace pytest -v -s entrypoints/rpc
  - pytest -v -s tool_use

@@ -2981,11 +2981,11 @@ steps:
  source_file_dependencies:
  - vllm/
  - tests/entrypoints/rpc
-  - tests/entrypoints/instrumentator
+  - tests/entrypoints/serve/instrumentator
  - tests/tool_use
  commands:
  - export VLLM_WORKER_MULTIPROC_METHOD=spawn
-  - pytest -v -s entrypoints/instrumentator
+  - pytest -v -s entrypoints/serve/instrumentator
  - PYTHONPATH=/vllm-workspace pytest -v -s entrypoints/rpc
  - pytest -v -s tool_use


--- a/.buildkite/test_areas/entrypoints.yaml
+++ b/.buildkite/test_areas/entrypoints.yaml
@@ -10,7 +10,7 @@ steps:
  - tests/entrypoints/
  commands:
  - pytest -v -s entrypoints/openai/tool_parsers
-  - pytest -v -s entrypoints/ --ignore=entrypoints/llm --ignore=entrypoints/rpc --ignore=entrypoints/sleep --ignore=entrypoints/instrumentator --ignore=entrypoints/openai --ignore=entrypoints/offline_mode --ignore=entrypoints/test_chat_utils.py  --ignore=entrypoints/pooling
+  - pytest -v -s entrypoints/ --ignore=entrypoints/llm --ignore=entrypoints/rpc --ignore=entrypoints/sleep --ignore=entrypoints/serve/instrumentator --ignore=entrypoints/openai --ignore=entrypoints/offline_mode --ignore=entrypoints/test_chat_utils.py  --ignore=entrypoints/pooling

 - label: Entrypoints Integration (LLM)
  timeout_in_minutes: 40
@@ -48,11 +48,11 @@ steps:
  source_file_dependencies:
  - vllm/
  - tests/entrypoints/rpc
-  - tests/entrypoints/instrumentator
+  - tests/entrypoints/serve/instrumentator
  - tests/tool_use
  commands:
  - export VLLM_WORKER_MULTIPROC_METHOD=spawn
-  - pytest -v -s entrypoints/instrumentator
+  - pytest -v -s entrypoints/serve/instrumentator
  - PYTHONPATH=/vllm-workspace pytest -v -s entrypoints/rpc
  - pytest -v -s tool_use


--- a/tests/entrypoints/openai/cpu/__init__.py
+++ b/tests/entrypoints/openai/cpu/__init__.py
--- a/tests/entrypoints/instrumentator/__init__.py
+++ b/tests/entrypoints/instrumentator/__init__.py
--- a/tests/entrypoints/instrumentator/test_basic.py
+++ b/tests/entrypoints/instrumentator/test_basic.py
@@ -11,11 +11,10 @@ import pytest_asyncio
 import requests
 from fastapi import Request

+from tests.utils import RemoteOpenAIServer
 from vllm.v1.engine.exceptions import EngineDeadError
 from vllm.version import __version__ as VLLM_VERSION

-from ...utils import RemoteOpenAIServer
-
 MODEL_NAME = "Qwen/Qwen3-0.6B"



--- a/tests/entrypoints/instrumentator/test_metrics.py
+++ b/tests/entrypoints/instrumentator/test_metrics.py
--- a/tests/entrypoints/instrumentator/test_optional_middleware.py
+++ b/tests/entrypoints/instrumentator/test_optional_middleware.py
@@ -10,7 +10,7 @@ from http import HTTPStatus
 import pytest
 import requests

-from ...utils import RemoteOpenAIServer
+from tests.utils import RemoteOpenAIServer

 # Use a small embeddings model for faster startup and smaller memory footprint.
 # Since we are not testing any chat functionality,

--- a/tests/entrypoints/instrumentator/test_orca_metrics.py
+++ b/tests/entrypoints/instrumentator/test_orca_metrics.py
@@ -5,7 +5,7 @@ import openai
 import pytest
 import pytest_asyncio

-from ...utils import RemoteOpenAIServer
+from tests.utils import RemoteOpenAIServer

 # any model with a chat template should work here
 MODEL_NAME = "Qwen/Qwen3-0.6B"

--- a/tests/entrypoints/instrumentator/test_sleep.py
+++ b/tests/entrypoints/instrumentator/test_sleep.py
--- a/tests/entrypoints/openai/cpu/test_render.py
+++ b/tests/entrypoints/openai/cpu/test_render.py
--- a/tests/entrypoints/openai/cpu/test_render_multimodal.py
+++ b/tests/entrypoints/openai/cpu/test_render_multimodal.py