# <div align="center"><strong>vllm-omni</strong></div>
## 简介
vLLM 最初是为支持文本生成任务的大型语言模型而设计的。vLLM-Omni 是一个框架，它将 vLLM 的支持扩展到全模态模型推理和服务的领域。
## 项目特色
vLLM-Omni 速度很快，具备以下特点：

利用 vLLM 的高效 KV 缓存管理，实现最先进的 AR 支持
流水线式阶段执行重叠以实现高吞吐量性能
基于 OmniConnector 的完全解耦和跨阶段的动态资源分配
vLLM-Omni 灵活易用，可与以下产品配合使用：

异构管道抽象用于管理复杂的模型工作流程
与流行的 Hugging Face 模型无缝集成
支持分布式推理的张量、管道、数据和专家并行性
流媒体输出
兼容 OpenAI 的 API 服务器
vLLM-Omni 可无缝支持 HuggingFace 上大多数流行的开源模型，包括：

全模态模型（例如 Qwen2.5-Omni、Qwen3-Omni）
多模态生成模型（例如 Qwen-Image）
## 支持模型结构列表

| 模型名                                                             | 参数量                            | Template            |
| ----------------------------------------------------------------- | -------------------------------- | ------------------- |
| [Qwen3-TTS](https://huggingface.co/collections/Qwen/qwen3-tts)                          | 0.6B/1.7B                        | qwen3_tts           |
持续更新中...

> **[!NOTE]**
vllm-omni是对vllm框架的拓展，严格依赖具体的vllm版本，如果版本没有对齐，可能遇到一些错误，可以考虑更换版本，或者查看vllm-omni项目的后续PR是否有解决方案
安装vllm-omni包以后只是拓展了vllm对多模态的支持程度，在DCU上vllm-omni支持的模型能否推理，具体还是要看vllm本身是否能够支持


## 使用源码编译方式安装
### 环境准备

`-v 路径`、`docker_name`和`imageID`根据实际情况修改

####  Docker

基于光源基础镜像环境：镜像下载地址：[https://sourcefind.cn/#/image/dcu/pytorch](https://sourcefind.cn/#/image/dcu/pytorch)

```bash
docker pull harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220
docker run -it --shm-size 200g --network=host --name {docker_name} --privileged --device=/dev/kfd --device=/dev/dri --device=/dev/mkfd --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -u root -v /path/your_code_data/:/path/your_code_data/ -v /opt/hyhal/:/opt/hyhal/:ro {imageID} bash

cd /your_code_path/vllm-omni
pip install -e . --no-build-isolation
```

## 参考资料

- [README](README_origin.md)
- [vllm-omni](https://github.com/vllm-project/vllm-omni)