bash ./bench-test.sh --gpus 3 \
                     --model vllm_api_stream_chat \
                     --dataset aime2025_gen \
                     --model-name test_model \
                     --batch-size  "16" \
                     --input-len 512 \
                     --max-out-len 512 \
                     --ais-model /data2/models/qwen3-8B \
                     --model-path /data2/models/qwen3-8B \
                     --host-port 23456


# bash ./bench-test.sh --gpus 3 \
#                      --model vllm_api_stream_chat \
#                      --dataset synthetic_gen \
#                      --model-name test_model \
#                      --batch-size  "8 16 32" \
#                      --input-len 512 \
#                      --max-out-len 512 \
#                      --ais-model /data2/models/qwen3-8B \
#                      --model-path /data2/models/qwen3-8B \
#                      --host-port 23456