#
vLLM
## 简介 vLLM是一个快速且易于使用的LLM推理和服务库,使用PageAttention高效管理kv内存,Continuous batching传入请求,支持很多Hugging Face模型,如LLaMA & LLaMA-2、Qwen、Chatglm2 & Chatglm3等。 ## 使用源码编译方式安装 ### 编译环境准备 提供2种环境准备方式: 1. 基于光源vllm基础镜像环境:[https://www.sourcefind.cn/#/image/dcu/vllm?activeName=overview](https://www.sourcefind.cn/#/image/dcu/vllm?activeName=overview)(推荐)。 2. 基于现有python环境:安装pytorch2.5.1,pytorch whl包下载目录:[https://cancon.hpccube.com:65024/4/main/pytorch](https://cancon.hpccube.com:65024/4/main/pytorch),根据python、dtk版本,下载对应pytorch2.9.0的whl包。安装命令如下: ```shell pip install torch* (下载的torch的whl包) pip install setuptools wheel ``` ### 源码编译安装 ```shell git clone http://developer.sourcefind.cn/codes/OpenDAS/vllm_dcu.git # 根据需要的分支进行切换 ``` 安装依赖: ```shell pip install -r requirements/rocm.txt ``` - 提供2种源码编译方式(进入vllm目录): ``` 如果使用vllm基础镜像,需要先下载vllm: pip uninstall vllm 1. 编译whl包并安装 python setup.py bdist_wheel cd dist pip install vllm* 2. 源码编译安装 python3 setup.py install (若调试,可使用python3 setup.py develop) ``` ### 运行基础环境准备 1、使用上面基于光源vllm基础镜像环境(推荐) 2、根据pytorch2.9.0、python、dtk及系统下载对应的依赖包: - triton:[https://cancon.hpccube.com:65024/4/main/triton](https://cancon.hpccube.com:65024/4/main/triton) ### 注意事项 + 若使用 pip install 下载安装过慢,可添加源:-i https://pypi.tuna.tsinghua.edu.cn/simple/ ## 验证 - python -c "import vllm; print(vllm.\_\_version__)" ## Known Issue - 无 ## 参考资料 - [README_ORIGIN](README_ORIGIN.md) - [https://github.com/vllm-project/vllm](https://github.com/vllm-project/vllm)