Commit ffdbcc0d authored by dengjb's avatar dengjb
Browse files

update

parent d2d98a18
......@@ -30,7 +30,7 @@ Qwen3Guard-Gen,它提供了以下主要优势:
| flash_attn | 2.6.1+das.opt1.dtk2504 |
| flash_mla | 1.0.0+das.opt1.dtk25042 |
当前仅支持镜像:
推荐使用镜像:
- 挂载地址`-v`根据实际模型情况修改
```bash
......@@ -50,20 +50,19 @@ docker run -it --shm-size 60g --network=host --name qwen3-guard --privileged --d
### vllm
#### 单机推理
可参考vllm_serve.sh脚本
```bash
## serve启动
## 可参考vllm_serve.sh脚本
vllm serve /path/of/Qwen/Qwen3Guard-Gen-8B/ \
--trust-remote-code \
--max-model-len 32768 \
--served-model-name qwen3-guard \
--dtype bfloat16 \
-tp 2
-tp 1
## client访问
可参考vllm_cilent.sh
## 可参考vllm_cilent.sh
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "qwen3-guard",
"messages": [
......@@ -93,7 +92,7 @@ DCU与GPU精度一致,推理框架:vllm。
## 预训练权重
| 模型名称 | 权重大小 | DCU型号 | 最低卡数需求 |下载地址|
|:-----:|:----------:|:----------:|:---------------------:|:----------:|
| Qwen3Guard-Gen-8B | 8B | BW1000 | 1 | [下载地址](https://modelscope.cn/models/Qwen/Qwen3Guard-Gen-8B) |
| Qwen3Guard-Gen-8B | 8B | BW1000 | 1 | [modelscope](https://modelscope.cn/models/Qwen/Qwen3Guard-Gen-8B) |
## 源码仓库及问题反馈
- https://developer.sourcefind.cn/codes/modelzoo/qwen3-guard_vllm
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment