Commit a3983b3d authored by laibao's avatar laibao
Browse files

Update README.md

parent 49753ddd
...@@ -105,7 +105,7 @@ python benchmarks/benchmark_throughput.py --num-prompts 1 --model meta-llama/Lla ...@@ -105,7 +105,7 @@ python benchmarks/benchmark_throughput.py --num-prompts 1 --model meta-llama/Lla
其中`--num-prompts`是batch数,`--model`为模型路径,`--dataset`为使用的数据集,`-tp`为使用卡数,`dtype="float16"`为推理数据类型,如果模型权重是bfloat16,需要修改为float16推理。`-q gptq`为使用gptq量化模型进行推理。 其中`--num-prompts`是batch数,`--model`为模型路径,`--dataset`为使用的数据集,`-tp`为使用卡数,`dtype="float16"`为推理数据类型,如果模型权重是bfloat16,需要修改为float16推理。`-q gptq`为使用gptq量化模型进行推理。
### api服务推理性能测试 ### openAI api服务推理性能测试
1、启动服务端: 1、启动服务端:
```bash ```bash
python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-2-7b-chat-hf --dtype float16 --enforce-eager -tp 1 python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-2-7b-chat-hf --dtype float16 --enforce-eager -tp 1
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment