[TPU] Add a case to cover RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w8a8 (#20385)

Signed-off-by: Qiliang Cui <derrhein@gmail.com>

[TPU] Add a case to cover RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w8a8 (#20385)
Signed-off-by: Qiliang Cui <derrhein@gmail.com>
4ff61aba · QiliangCui · GitHub · 0ec3779d · 4ff61aba
Unverified Commit 4ff61aba authored Jul 02, 2025 by QiliangCui Committed by GitHub Jul 03, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 14 additions and 0 deletions

.buildkite/scripts/tpu/quantized_v6e_1.env .buildkite/scripts/tpu/quantized_v6e_1.env +14 -0

No files found.
--- a/.buildkite/scripts/tpu/quantized_v6e_1.env
+++ b/.buildkite/scripts/tpu/quantized_v6e_1.env
+# Environment config
+TEST_NAME=llama8bw8a8
+CONTAINER_NAME=vllm-tpu
+
+# vllm config
+MODEL=RedHatAI/Meta-Llama-3.1-8B-Instruct-quantized.w8a8
+MAX_NUM_SEQS=128
+MAX_NUM_BATCHED_TOKENS=1024
+TENSOR_PARALLEL_SIZE=1
+MAX_MODEL_LEN=2048
+DOWNLOAD_DIR=/mnt/disks/persist
+EXPECTED_THROUGHPUT=10.0
+INPUT_LEN=1800
+OUTPUT_LEN=128