Commit 19b55b09 authored by chenzk's avatar chenzk
Browse files

Update precise.md

parent 8b91cbca
...@@ -65,7 +65,8 @@ pip install transformers==4.51.1 ...@@ -65,7 +65,8 @@ pip install transformers==4.51.1
暂无 暂无
## 推理 ## 推理
### vllm离线推理Qwen3-30B-A3B vllm离线推理Qwen3-30B-A3B:
```bash ```bash
## Qwen3-30B-A3B 在 BF16 精度下,其模型权重本身大约是 61 GB,至少需要双卡部署推理 ## Qwen3-30B-A3B 在 BF16 精度下,其模型权重本身大约是 61 GB,至少需要双卡部署推理
export HIP_VISIBLE_DEVICES=6,7 export HIP_VISIBLE_DEVICES=6,7
...@@ -74,6 +75,18 @@ python ./infer/offline/infer_vllm.py --model /your_path/Qwen3-30B-A3B --tensor-p ...@@ -74,6 +75,18 @@ python ./infer/offline/infer_vllm.py --model /your_path/Qwen3-30B-A3B --tensor-p
``` ```
## result ## result
### result一
vllm离线推理Qwen3-30B-A3B:
```bash
## Qwen3-30B-A3B 在 BF16 精度下,其模型权重本身大约是 61 GB,至少需要双卡部署推理
export HIP_VISIBLE_DEVICES=6,7
## 模型地址参数
python ./infer/offline/infer_vllm.py --model /your_path/Qwen3-30B-A3B --tensor-parallel-size 2
```
``` ```
Original Input Prompt (if available): Original Input Prompt (if available):
'介绍一下北京.' '介绍一下北京.'
...@@ -102,7 +115,7 @@ Logprobs per generated token: ...@@ -102,7 +115,7 @@ Logprobs per generated token:
成功将每个生成token的logprob写入到文件: ... 成功将每个生成token的logprob写入到文件: ...
``` ```
### 精度 ### 精度测试一
``` ```
# 分别在DCU和GPU上运行infer_vllm.py,得到各自的精度数据,并将精度数据复制粘贴到acc.py中运行 # 分别在DCU和GPU上运行infer_vllm.py,得到各自的精度数据,并将精度数据复制粘贴到acc.py中运行
python ./infer/offline/acc.py python ./infer/offline/acc.py
...@@ -113,8 +126,10 @@ Qwen3-30B-A3B在DCU(K100_AI)与GPU(A800)离线推理的平均绝对误差值:0 ...@@ -113,8 +126,10 @@ Qwen3-30B-A3B在DCU(K100_AI)与GPU(A800)离线推理的平均绝对误差值:0
``` ```
DCU(K100_AI)与GPU(A800)离线推理Qwen3-30B-A3B精度一致,推理框架:vllm DCU(K100_AI)与GPU(A800)离线推理Qwen3-30B-A3B精度一致,推理框架:vllm
### result二
vllm离线推理Qwen3-30B-A3B-Instruct-2507:
### vllm离线推理Qwen3-30B-A3B-Instruct-2507
```bash ```bash
## Qwen3-30B-A3B-Instruct-2507 至少需要双卡部署推理 ## Qwen3-30B-A3B-Instruct-2507 至少需要双卡部署推理
export HIP_VISIBLE_DEVICES=6,7 export HIP_VISIBLE_DEVICES=6,7
...@@ -122,7 +137,6 @@ export HIP_VISIBLE_DEVICES=6,7 ...@@ -122,7 +137,6 @@ export HIP_VISIBLE_DEVICES=6,7
python ./infer/offline/infer_vllm.py --model /your_path/Qwen3-30B-A3B-Instruct-2507 --tensor-parallel-size 2 python ./infer/offline/infer_vllm.py --model /your_path/Qwen3-30B-A3B-Instruct-2507 --tensor-parallel-size 2
``` ```
## result
``` ```
Original Input Prompt (if available): Original Input Prompt (if available):
'介绍一下北京.' '介绍一下北京.'
...@@ -151,7 +165,7 @@ Logprobs per generated token: ...@@ -151,7 +165,7 @@ Logprobs per generated token:
成功将每个生成token的logprob写入到文件: ... 成功将每个生成token的logprob写入到文件: ...
``` ```
### 精度 ### 精度测试二
``` ```
# 分别在DCU和GPU上运行infer_vllm.py,得到各自的精度数据,并将精度数据复制粘贴到acc.py中运行 # 分别在DCU和GPU上运行infer_vllm.py,得到各自的精度数据,并将精度数据复制粘贴到acc.py中运行
python ./infer/offline/acc.py python ./infer/offline/acc.py
...@@ -162,9 +176,10 @@ Qwen3-30B-A3B-Instruct-2507在DCU(K100_AI)与GPU(A800)离线推理的平均绝 ...@@ -162,9 +176,10 @@ Qwen3-30B-A3B-Instruct-2507在DCU(K100_AI)与GPU(A800)离线推理的平均绝
``` ```
DCU(K100_AI)与GPU(A800)离线推理Qwen3-30B-A3B-Instruct-2507精度一致,推理框架:vllm DCU(K100_AI)与GPU(A800)离线推理Qwen3-30B-A3B-Instruct-2507精度一致,推理框架:vllm
### result三
vllm离线推理Qwen3-30B-A3B-Thinking-2507:
### vllm离线推理Qwen3-30B-A3B-Thinking-2507
```bash ```bash
## Qwen3-30B-A3B-Thinking-2507 至少需要双卡部署推理 ## Qwen3-30B-A3B-Thinking-2507 至少需要双卡部署推理
export HIP_VISIBLE_DEVICES=6,7 export HIP_VISIBLE_DEVICES=6,7
...@@ -172,7 +187,6 @@ export HIP_VISIBLE_DEVICES=6,7 ...@@ -172,7 +187,6 @@ export HIP_VISIBLE_DEVICES=6,7
python ./infer/offline/infer_vllm.py --model /your_path/Qwen3-30B-A3B-Thinking-2507 --tensor-parallel-size 2 python ./infer/offline/infer_vllm.py --model /your_path/Qwen3-30B-A3B-Thinking-2507 --tensor-parallel-size 2
``` ```
## result
``` ```
Original Input Prompt (if available): Original Input Prompt (if available):
'介绍一下北京.' '介绍一下北京.'
...@@ -201,7 +215,7 @@ Logprobs per generated token: ...@@ -201,7 +215,7 @@ Logprobs per generated token:
成功将每个生成token的logprob写入到文件: ... 成功将每个生成token的logprob写入到文件: ...
``` ```
### 精度 ### 精度测试三
``` ```
# 分别在DCU和GPU上运行infer_vllm.py,得到各自的精度数据,并将精度数据复制粘贴到acc.py中运行 # 分别在DCU和GPU上运行infer_vllm.py,得到各自的精度数据,并将精度数据复制粘贴到acc.py中运行
python ./infer/offline/acc.py python ./infer/offline/acc.py
...@@ -212,8 +226,10 @@ Qwen3-30B-A3B-Thinking-2507在DCU(K100_AI)与GPU(A800)离线推理的平均绝 ...@@ -212,8 +226,10 @@ Qwen3-30B-A3B-Thinking-2507在DCU(K100_AI)与GPU(A800)离线推理的平均绝
``` ```
DCU(K100_AI)与GPU(A800)离线推理Qwen3-30B-A3B-Thinking-2507精度一致,推理框架:vllm DCU(K100_AI)与GPU(A800)离线推理Qwen3-30B-A3B-Thinking-2507精度一致,推理框架:vllm
### result四
vllm在线推理Qwen3-30B-A3B:
### vllm在线推理Qwen3-30B-A3B
```bash ```bash
## Qwen3-30B-A3B 至少需要双卡部署 ## Qwen3-30B-A3B 至少需要双卡部署
export HIP_VISIBLE_DEVICES=6,7 export HIP_VISIBLE_DEVICES=6,7
...@@ -223,8 +239,6 @@ vllm serve /your_path/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepse ...@@ -223,8 +239,6 @@ vllm serve /your_path/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepse
python client.py python client.py
``` ```
## result
``` ```
欢迎使用 Qwen3-30B-A3B 聊天客户端! 欢迎使用 Qwen3-30B-A3B 聊天客户端!
已连接到 vLLM 服务,使用模型: /home/zwq/model/Qwen3-30B-A3B 已连接到 vLLM 服务,使用模型: /home/zwq/model/Qwen3-30B-A3B
...@@ -251,7 +265,7 @@ python client.py ...@@ -251,7 +265,7 @@ python client.py
所有测试结果已保存到文件: ./Qwen3-30B-A3B_logprobs_K100AI_fp16.json 所有测试结果已保存到文件: ./Qwen3-30B-A3B_logprobs_K100AI_fp16.json
``` ```
### 精度 ### 精度测试四
```bash ```bash
## 分别在DCU和GPU上启动vllm服务,并对应运行client.py,得到各自的精度数据后,运行online文件夹下的acc.py ## 分别在DCU和GPU上启动vllm服务,并对应运行client.py,得到各自的精度数据后,运行online文件夹下的acc.py
python ./infer/online/acc.py --file1 /your_path/Qwen3-30B-A3B_logprobs_A800_fp16.json --file2 /your_path/Qwen3-30B-A3B_logprobs_K100AI_fp16.json python ./infer/online/acc.py --file1 /your_path/Qwen3-30B-A3B_logprobs_A800_fp16.json --file2 /your_path/Qwen3-30B-A3B_logprobs_K100AI_fp16.json
...@@ -273,8 +287,10 @@ python ./infer/online/acc.py --file1 /your_path/Qwen3-30B-A3B_logprobs_A800_fp16 ...@@ -273,8 +287,10 @@ python ./infer/online/acc.py --file1 /your_path/Qwen3-30B-A3B_logprobs_A800_fp16
``` ```
DCU(K100_AI)与GPU(A800)在线推理Qwen3-30B-A3B精度一致,推理框架:vllm DCU(K100_AI)与GPU(A800)在线推理Qwen3-30B-A3B精度一致,推理框架:vllm
### result五
vllm在线推理Qwen3-30B-A3B-Instruct-2507:
### vllm在线推理Qwen3-30B-A3B-Instruct-2507
```bash ```bash
## Qwen3-30B-A3B-Instruct-2507 至少需要双卡部署 ## Qwen3-30B-A3B-Instruct-2507 至少需要双卡部署
export HIP_VISIBLE_DEVICES=6,7 export HIP_VISIBLE_DEVICES=6,7
...@@ -284,7 +300,6 @@ vllm serve /your_path/Qwen3-30B-A3B-Instruct-2507 --tensor-parallel-size 2 --max ...@@ -284,7 +300,6 @@ vllm serve /your_path/Qwen3-30B-A3B-Instruct-2507 --tensor-parallel-size 2 --max
python client.py python client.py
``` ```
## result
``` ```
欢迎使用 Qwen3-30B-A3B 聊天客户端! 欢迎使用 Qwen3-30B-A3B 聊天客户端!
已连接到 vLLM 服务,使用模型: /home/zwq/model/Qwen3-30B-A3B-Instruct-2507 已连接到 vLLM 服务,使用模型: /home/zwq/model/Qwen3-30B-A3B-Instruct-2507
...@@ -311,7 +326,7 @@ python client.py ...@@ -311,7 +326,7 @@ python client.py
所有测试结果已保存到文件: ./Qwen3-30B-A3B-Instruct-2507_logprobs_K100AI_fp16.json 所有测试结果已保存到文件: ./Qwen3-30B-A3B-Instruct-2507_logprobs_K100AI_fp16.json
``` ```
### 精度 ### 精度测试五
```bash ```bash
## 分别在DCU和GPU上启动vllm服务,并对应运行client.py,得到各自的精度数据后,运行online文件夹下的acc.py ## 分别在DCU和GPU上启动vllm服务,并对应运行client.py,得到各自的精度数据后,运行online文件夹下的acc.py
python ./infer/online/acc.py --file1 /your_path/Qwen3-30B-A3B-Instruct-2507_logprobs_A800_fp16.json --file2 /your_path/Qwen3-30B-A3B-Instruct-2507_logprobs_K100AI_fp16.json python ./infer/online/acc.py --file1 /your_path/Qwen3-30B-A3B-Instruct-2507_logprobs_A800_fp16.json --file2 /your_path/Qwen3-30B-A3B-Instruct-2507_logprobs_K100AI_fp16.json
...@@ -333,8 +348,10 @@ python ./infer/online/acc.py --file1 /your_path/Qwen3-30B-A3B-Instruct-2507_logp ...@@ -333,8 +348,10 @@ python ./infer/online/acc.py --file1 /your_path/Qwen3-30B-A3B-Instruct-2507_logp
``` ```
DCU(K100_AI)与GPU(A800)在线推理Qwen3-30B-A3B-Instruct-2507精度一致,推理框架:vllm DCU(K100_AI)与GPU(A800)在线推理Qwen3-30B-A3B-Instruct-2507精度一致,推理框架:vllm
### result六
vllm在线推理Qwen3-30B-A3B-Thinking-2507:
### vllm在线推理Qwen3-30B-A3B-Thinking-2507
```bash ```bash
## Qwen3-30B-A3B-Thinking-2507 至少需要双卡部署 ## Qwen3-30B-A3B-Thinking-2507 至少需要双卡部署
export HIP_VISIBLE_DEVICES=6,7 export HIP_VISIBLE_DEVICES=6,7
...@@ -344,7 +361,6 @@ vllm serve /your_path/Qwen3-30B-A3B-Thinking-2507 --tensor-parallel-size 2 --max ...@@ -344,7 +361,6 @@ vllm serve /your_path/Qwen3-30B-A3B-Thinking-2507 --tensor-parallel-size 2 --max
python client.py python client.py
``` ```
## result
``` ```
欢迎使用 Qwen3-30B-A3B 聊天客户端! 欢迎使用 Qwen3-30B-A3B 聊天客户端!
已连接到 vLLM 服务,使用模型: /home/zwq/model/Qwen3-30B-A3B-Thinking-2507 已连接到 vLLM 服务,使用模型: /home/zwq/model/Qwen3-30B-A3B-Thinking-2507
...@@ -371,7 +387,7 @@ python client.py ...@@ -371,7 +387,7 @@ python client.py
所有测试结果已保存到文件: ./Qwen3-30B-A3B-Thinking-2507_logprobs_K100AI_fp16.json 所有测试结果已保存到文件: ./Qwen3-30B-A3B-Thinking-2507_logprobs_K100AI_fp16.json
``` ```
### 精度 ### 精度测试六
```bash ```bash
## 分别在DCU和GPU上启动vllm服务,并对应运行client.py,得到各自的精度数据后,运行online文件夹下的acc.py ## 分别在DCU和GPU上启动vllm服务,并对应运行client.py,得到各自的精度数据后,运行online文件夹下的acc.py
python ./infer/online/acc.py --file1 /your_path/Qwen3-30B-A3B-Thinking-2507_logprobs_A800_fp16.json --file2 /your_path/Qwen3-30B-A3B-Thinking-2507_logprobs_K100AI_fp16.json python ./infer/online/acc.py --file1 /your_path/Qwen3-30B-A3B-Thinking-2507_logprobs_A800_fp16.json --file2 /your_path/Qwen3-30B-A3B-Thinking-2507_logprobs_K100AI_fp16.json
...@@ -396,7 +412,7 @@ DCU(K100_AI)与GPU(A800)在线推理Qwen3-30B-A3B-Thinking-2507精度一致, ...@@ -396,7 +412,7 @@ DCU(K100_AI)与GPU(A800)在线推理Qwen3-30B-A3B-Thinking-2507精度一致,
## 应用场景 ## 应用场景
### 算法类别 ### 算法类别
`对话` `对话问答`
### 热点应用行业 ### 热点应用行业
`金融,教育,政府,科研,制造,能源,交通` `金融,教育,政府,科研,制造,能源,交通`
## 预训练权重 ## 预训练权重
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment