README.md

# vLLM 0.11.0 Management

vLLM-0.11.0的软件版本管理及脚本程序管理

## 当前版本信息

1. 最新镜像

    docker pull harbor.sourcefind.cn:5443/dcu/admin/base/vllm:0.11.0-ubuntu22.04-dtk25.04.2-1226-das1.7-py3.10-20251226

    该镜像默认使用V1 Engine，并且默认开启了Prefix Caching功能

2. 常见模型部署方法

    参考智算产品部提供的部署手册（定期更新）：https://r0ddbu55vzx.feishu.cn/docx/LL7KdYsWeoch7PxaS7wcBR5OnLe?from=from_copylink

3. 常见模型性能摸测结果

    【金山文档 | WPS云文档】 大模型推理性能记录表-2026：https://www.kdocs.cn/l/cg98BKZula49（by 刘玉升/刘煦）

4. 通用小参数量的大模型推荐的w8a8精度的量化方法是compressed-tensors、quark、w8a8-dynamic？（by 王凯雄）

    DCU推荐使用:  compressed-tensors 

    compressed-tensors 量化方法见链接: https://sw4sldkryl8.feishu.cn/docx/RJqldrez2o477Cxyo40cg3Ven7h?from=from_copylink

    w8a8-dynamic 是华为卡上模型量化后的格式

## 代码/脚本更新日志

2026/01/27：启动方式改用vllm serve/vllm bench指令；新增FP8精度支持（by 刘煦）

2026/01/27：新增vllm0.11.0在线测试的自动化测试脚本，使用相关的环境变量；新增单并发吞吐指标记录（by 刘煦）