#
vllm-omni
## 简介
vLLM 最初是为支持文本生成任务的大型语言模型而设计的。vLLM-Omni 是一个框架,它将 vLLM 的支持扩展到全模态模型推理和服务的领域。
## 项目特色
vLLM-Omni 速度很快,具备以下特点:
利用 vLLM 的高效 KV 缓存管理,实现最先进的 AR 支持
流水线式阶段执行重叠以实现高吞吐量性能
基于 OmniConnector 的完全解耦和跨阶段的动态资源分配
vLLM-Omni 灵活易用,可与以下产品配合使用:
异构管道抽象用于管理复杂的模型工作流程
与流行的 Hugging Face 模型无缝集成
支持分布式推理的张量、管道、数据和专家并行性
流媒体输出
兼容 OpenAI 的 API 服务器
vLLM-Omni 可无缝支持 HuggingFace 上大多数流行的开源模型,包括:
全模态模型(例如 Qwen2.5-Omni、Qwen3-Omni)
多模态生成模型(例如 Qwen-Image)
## 支持模型结构列表
| 模型名 | 参数量 | Template |
| ----------------------------------------------------------------- | -------------------------------- | ------------------- |
| [Qwen3-TTS](https://huggingface.co/collections/Qwen/qwen3-tts) | 0.6B/1.7B | qwen3_tts |
持续更新中...
> **[!NOTE]**
vllm-omni是对vllm框架的拓展,严格依赖具体的vllm版本,如果版本没有对齐,可能遇到一些错误,可以考虑更换版本,或者查看vllm-omni项目的后续PR是否有解决方案
安装vllm-omni包以后只是拓展了vllm对多模态的支持程度,在DCU上vllm-omni支持的模型能否推理,具体还是要看vllm本身是否能够支持
## 使用源码编译方式安装
### 环境准备
`-v 路径`、`docker_name`和`imageID`根据实际情况修改
#### Docker
基于光源基础镜像环境:镜像下载地址:[https://sourcefind.cn/#/image/dcu/pytorch](https://sourcefind.cn/#/image/dcu/pytorch)
```bash
docker pull harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220
docker run -it --shm-size 200g --network=host --name {docker_name} --privileged --device=/dev/kfd --device=/dev/dri --device=/dev/mkfd --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -u root -v /path/your_code_data/:/path/your_code_data/ -v /opt/hyhal/:/opt/hyhal/:ro {imageID} bash
cd /your_code_path/vllm-omni
pip install -e . --no-build-isolation
```
## 参考资料
- [README](README_origin.md)
- [vllm-omni](https://github.com/vllm-project/vllm-omni)