README.md 1.54 KB
Newer Older
liuxu3's avatar
liuxu3 committed
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
# vLLM 0.9.2 Management

vLLM-0.9.2的软件版本管理及脚本程序管理

## 当前版本信息

1. 最新镜像

    docker pull image.sourcefind.cn:5000/dcu/admin/base/vllm:0.9.2-ubuntu22.04-dtk25.04.1-rc5-rocblas104381-0915-das1.6-py3.10-20250916-rc2-ds3.2

    该镜像默认使用V1 Engine,并且默认开启了Prefix Caching功能

2. 推荐使用的环境变量(可作为测试参考)

    ```
    # 表示在并发数小于阈值时执行cudagraph模式,大于阈值时执行eager模式(产品建议K100AI设置成44,BW1000不设置该参数)
    export VLLM_ENFORCE_EAGER_BS_THRESHOLD=44

    # vllm 0.8.5/0.9.2版本出现精度乱码问题,可以尝试该环境变量解决
    export VLLM_USE_FLASH_ATTN_PA=0
    ```

2. 常见模型部署方法

    参考智算产品部提供的部署手册(定期更新):https://r0ddbu55vzx.feishu.cn/docx/LL7KdYsWeoch7PxaS7wcBR5OnLe?from=from_copylink

3. 常见模型性能摸测结果

    【金山文档 | WPS云文档】 大模型推理性能记录表_2025 https://www.kdocs.cn/l/cpcfyAiQx4WW(by 徐晓欧/刘煦/孙中谦)

4. 通用小参数量的大模型推荐的w8a8精度的量化方法是compressed-tensors、quark、w8a8-dynamic?(by 王凯雄)

    DCU推荐使用:  compressed-tensors 

    compressed-tensors 量化方法见链接: https://sw4sldkryl8.feishu.cn/docx/RJqldrez2o477Cxyo40cg3Ven7h?from=from_copylink

    w8a8-dynamic 是华为卡上模型量化后的格式

## 代码/脚本更新日志

2025/10/16:增加最大并发量的测试方法(by 刘煦)
liuxu3's avatar
liuxu3 committed
42