Commit 18a90f1e authored by zhuwenwen's avatar zhuwenwen
Browse files

update readme

parent ea93e725
...@@ -41,7 +41,6 @@ docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.8.4-ubuntu22.04 ...@@ -41,7 +41,6 @@ docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.8.4-ubuntu22.04
docker run -it --name qwen3_vllm --privileged --shm-size=64G --device=/dev/kfd --device=/dev/dri/ --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --ulimit memlock=-1:-1 --ipc=host --network host --group-add video -v /opt/hyhal:/opt/hyhal -v <Host Path>:<Container Path> <Image ID> /bin/bash docker run -it --name qwen3_vllm --privileged --shm-size=64G --device=/dev/kfd --device=/dev/dri/ --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --ulimit memlock=-1:-1 --ipc=host --network host --group-add video -v /opt/hyhal:/opt/hyhal -v <Host Path>:<Container Path> <Image ID> /bin/bash
``` ```
### Dockerfile(方法二) ### Dockerfile(方法二)
``` ```
...@@ -51,7 +50,36 @@ docker build -t qwen3:latest . ...@@ -51,7 +50,36 @@ docker build -t qwen3:latest .
docker run -it --name qwen3_vllm --privileged --shm-size=64G --device=/dev/kfd --device=/dev/dri/ --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --ulimit memlock=-1:-1 --ipc=host --network host --group-add video -v /opt/hyhal:/opt/hyhal:ro -v <Host Path>:<Container Path> qwen3:latest /bin/bash docker run -it --name qwen3_vllm --privileged --shm-size=64G --device=/dev/kfd --device=/dev/dri/ --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --ulimit memlock=-1:-1 --ipc=host --network host --group-add video -v /opt/hyhal:/opt/hyhal:ro -v <Host Path>:<Container Path> qwen3:latest /bin/bash
``` ```
### Anaconda(方法三)
```
conda create -n qwen3_vllm python=3.10
```
关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.hpccube.com/tool/)开发者社区下载安装。
* DTK驱动:dtk25.04
* Pytorch: 2.4.0
* triton: 3.0.0
* lmslim: 0.2.1
* flash_attn: 2.6.1
* flash_mla: 1.0.0
* vllm: 0.8.4
* python: python3.10
`Tips:需先安装相关依赖,最后安装vllm包`
环境变量:
export ALLREDUCE_STREAM_WITH_COMPUTE=1 
export VLLM_NUMA_BIND=1
export VLLM_RANK0_NUMA=0
export VLLM_RANK1_NUMA=1
export VLLM_RANK2_NUMA=2
export VLLM_RANK3_NUMA=3
export VLLM_RANK4_NUMA=4
export VLLM_RANK5_NUMA=5
export VLLM_RANK6_NUMA=6
export VLLM_RANK7_NUMA=7
## 数据集 ## 数据集
...@@ -79,7 +107,7 @@ docker run -it --name qwen3_vllm --privileged --shm-size=64G --device=/dev/kfd ...@@ -79,7 +107,7 @@ docker run -it --name qwen3_vllm --privileged --shm-size=64G --device=/dev/kfd
python examples/offline_inference.py python examples/offline_inference.py
``` ```
其中,`prompts`为提示词;`temperature`为控制采样随机性的值,值越小模型生成越确定,值变高模型生成更随机,0表示贪婪采样,默认为1;`max_tokens=16`为生成长度,默认为1; 其中,`prompts`为提示词;`temperature`为控制采样随机性的值,值越小模型生成越确定,值变高模型生成更随机,0表示贪婪采样,默认为1;`max_tokens=16`为生成长度,默认为16
`model`为模型路径;`tensor_parallel_size=1`为使用卡数,默认为1;`dtype="float16"`为推理数据类型。 `model`为模型路径;`tensor_parallel_size=1`为使用卡数,默认为1;`dtype="float16"`为推理数据类型。
### 离线批量推理性能测试 ### 离线批量推理性能测试
...@@ -128,19 +156,6 @@ vllm serve /your/model/path --enforce-eager --dtype float16 --trust-remote-code ...@@ -128,19 +156,6 @@ vllm serve /your/model/path --enforce-eager --dtype float16 --trust-remote-code
这里sreve之后为加载模型路径,`--dtype`为数据类型:float16,默认情况使用tokenizer中的预定义聊天模板。 这里sreve之后为加载模型路径,`--dtype`为数据类型:float16,默认情况使用tokenizer中的预定义聊天模板。
### OpenAI Completions API和vllm结合使用
```bash
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "/your/model/path",
"prompt": "What is deep learning?",
"max_tokens": 7,
"temperature": 0
}'
```
### OpenAI Chat API和vllm结合使用 ### OpenAI Chat API和vllm结合使用
```bash ```bash
...@@ -149,7 +164,7 @@ curl http://localhost:8000/v1/chat/completions \ ...@@ -149,7 +164,7 @@ curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \ -H "Content-Type: application/json" \
-d '{ -d '{
"model": "/your/model/path", "model": "/your/model/path",
"max_tokens": 6000, "max_tokens": 128,
"messages": [ "messages": [
{ {
"role": "user", "role": "user",
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment