[Rocm][CI] Fix LM Eval Large Models (H100) test group (#34750)

Signed-off-by: charlifu <charlifu@amd.com>

[Rocm][CI] Fix LM Eval Large Models (H100) test group (#34750)
Signed-off-by: charlifu <charlifu@amd.com>
3fd1d4ec · Charlie Fu · GitHub · cb21972a · 3fd1d4ec · 3fd1d4ec
Unverified Commit 3fd1d4ec authored Mar 02, 2026 by Charlie Fu Committed by GitHub Mar 02, 2026
Show whitespace changes
Inline Side-by-side

Showing with 5 additions and 4 deletions

.buildkite/lm-eval-harness/configs/models-large-rocm.txt .buildkite/lm-eval-harness/configs/models-large-rocm.txt +1 -0

.buildkite/test-amd.yaml .buildkite/test-amd.yaml +4 -4

No files found.
--- a/.buildkite/lm-eval-harness/configs/models-large-rocm.txt
+++ b/.buildkite/lm-eval-harness/configs/models-large-rocm.txt
 Meta-Llama-4-Maverick-17B-128E-Instruct-FP8.yaml
+Qwen3-235B-A22B-Instruct-2507-FP8.yaml
--- a/.buildkite/test-amd.yaml
+++ b/.buildkite/test-amd.yaml
@@ -1544,8 +1544,8 @@ steps:
  - export VLLM_WORKER_MULTIPROC_METHOD=spawn
  - pytest -s -v test_lm_eval_correctness.py --config-list-file=configs/models-large.txt --tp-size=4
-##### H100 test #####
+##### FP8 test #####
- label: LM Eval Large Models (H100) # optional
+- label: LM Eval Large Models (H100) # optional, still use H100 for consistency
  gpu: h100
  optional: true
  mirror_hardwares: [amdexperimental, amdproduction]
@@ -1557,8 +1557,8 @@ steps:
  - csrc/
  - vllm/model_executor/layers/quantization
  commands:
-    - export VLLM_USE_DEEP_GEMM=0  # We found Triton is faster than DeepGEMM for H100
+    - export VLLM_USE_DEEP_GEMM=0 
-    - pytest -s -v test_lm_eval_correctness.py --config-list-file=configs/models-large-hopper.txt --tp-size=4
+    - pytest -s -v test_lm_eval_correctness.py --config-list-file=configs/models-large-rocm.txt --tp-size=4
 ##### H200 test #####