Commit fbac2cd8 authored by chenych's avatar chenych
Browse files

优化README描述

parent 85ca2fc1
......@@ -16,7 +16,7 @@
| sglang | 0.5.10rc0 |
当前仅支持镜像:
- **vLLM推理请使用:** harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm015-ubuntu22.04-dtk26.04-glm5-0408
- **vLLM推理请使用:** docker pull harbor.sourcefind.cn:5443/dcu/admin/base/vllm:0.15.1--ubuntu22.04-dtk26.04-py3.10-20260409
- **SGLang推理请使用:** harbor.sourcefind.cn:5443/dcu/admin/base/custom:sglang-0.5.10-glm5-0416
- 挂载地址`-v`根据实际模型情况修改
......@@ -37,11 +37,20 @@ docker run -it \
-u root \
-v /opt/hyhal/:/opt/hyhal/:ro \
-v /path/your_code_data/:/path/your_code_data/ \
harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm015-ubuntu22.04-dtk26.04-glm5-0408 bash
docker pull harbor.sourcefind.cn:5443/dcu/admin/base/vllm:0.15.1--ubuntu22.04-dtk26.04-py3.10-20260409 bash
```
更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。
## 预训练权重
**请根据`支持的DCU型号`选择对应模型下载,FP8模型仅在BW1100/BW1101上支持,其他型号请勿使用!**
| 模型名称 | 权重大小 | 数据类型 | 支持的DCU型号 | 最低卡数需求 |下载地址|
|:-----:|:----------:|:----------:|:----------:|:---------------------:|:----------:|
| GLM-5 | 744B | BF16 | BW1000 | 32 | [ModelScope](https://modelscope.cn/models/ZhipuAI/GLM-5) |
| GLM-5 | 744B | BF16 | BW1100 | 16 | [ModelScope](https://modelscope.cn/models/ZhipuAI/GLM-5) |
| GLM-5-FP8 | 744B | FP8 | BW1100 | 8 | [ModelScope](https://modelscope.cn/models/ZhipuAI/GLM-5-FP8) |
## 数据集
`暂无`
......@@ -49,7 +58,9 @@ docker run -it \
`暂无`
## 推理
> 如果出现`ImportError: librocm_smi64.so.2: cannot open shaned object file: No such file or directory`报错,系机器hyhal版本较低所致,请进行升级。
> 1. 如果出现`ImportError: librocm_smi64.so.2: cannot open shaned object file: No such file or directory`报错,系机器hyhal版本较低所致,请进行升级。
> 2. FP8模型仅在BW1100上支持,其他型号请使用BF16模型
> 3. MTP暂不支持
### SGLang
1. 加入环境变量
......@@ -60,15 +71,15 @@ export SGLANG_ROCM_USE_AITER_MOE=0
```
2. 启动服务
```bash
model_path=ZhipuAI/GLM-5-FP8
model_path=ZhipuAI/GLM-5-FP8 # FP8模型
option="--numa-node 0 0 0 0 1 1 1 1 "
option+=" --disable-radix-cache "
option+=" --chunked-prefill-size 16384"
option+=" --page-size 64 "
option+=" --nsa-prefill-backend flashmla_auto --nsa-decode-backend flashmla_kv "
# option+=" --quantization slimquant_marlin "
python3 -m sglang.launch_server --model-path "${model_path}" ${option} \
--trust-remote-code \
......@@ -100,7 +111,7 @@ curl http://localhost:8001/v1/chat/completions \
}'
```
### vllm
### vLLM
#### 单机推理
1. 加入环境变量
```bash
......@@ -136,6 +147,23 @@ export USE_LIGHTOP_CONVERT_REQ_INDEX_TO_GLOBAL_INDEX=1
```
2. 启动vllm serve
- **BF16**模型
```bash
vllm serve ZhipuAI/GLM-5 \
--port 8001 \
--trust-remote-code \
--tensor-parallel-size 32 \ # BW1000是32, BW1100是16
--gpu-memory-utilization 0.85 \
--distributed-executor-backend ray \
--dtype bfloat16 \
--max-model-len 32768 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5
```
- **F8**模型,**FP8模型仅在BW1100/BW1101上支持,其他型号请使用BF16模型**
```bash
vllm serve ZhipuAI/GLM-5-FP8 \
--gpu-memory-utilization 0.925 \
......@@ -155,7 +183,7 @@ vllm serve ZhipuAI/GLM-5-FP8 \
curl http://localhost:8001/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5-fp8",
"model": "glm-5 或者 glm-5-fp8",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Summarize GLM-5 in one sentence."}
......@@ -221,6 +249,7 @@ ray start --address='x.x.x.x:6379' --num-gpus=8 --num-cpus=32
```
3. 启动vllm serve
- **BF16**模型
```bash
vllm serve ZhipuAI/GLM-5 \
--port 8001 \
......@@ -230,8 +259,6 @@ vllm serve ZhipuAI/GLM-5 \
--distributed-executor-backend ray \
--dtype bfloat16 \
--max-model-len 32768 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 1 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
......@@ -259,14 +286,7 @@ curl http://localhost:8001/v1/chat/completions \
</div>
### 精度
`DCU与GPU精度一致,推理框架:vllm。`
## 预训练权重
| 模型名称 | 权重大小 | DCU型号 | 最低卡数需求 |下载地址|
|:-----:|:----------:|:----------:|:---------------------:|:----------:|
| GLM-5 | 744B | BW1000 | 32 | [ModelScope](https://modelscope.cn/models/ZhipuAI/GLM-5) |
| GLM-5 | 744B | BW1100 | 16 | [ModelScope](https://modelscope.cn/models/ZhipuAI/GLM-5) |
| GLM-5-FP8 | 744B | BW1100 | 8 | [ModelScope](https://modelscope.cn/models/ZhipuAI/GLM-5-FP8) |
`DCU与GPU精度一致,推理框架:vllm, sglang。`
## 源码仓库及问题反馈
- https://developer.sourcefind.cn/codes/modelzoo/glm-5_vllm
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment