Commit 5817b427 authored by raojy's avatar raojy 💬
Browse files

Update README.md

parent 256bf4a6
...@@ -9,7 +9,7 @@ Qwen3-Omni 是一款原生的端到端全模态基座模型,具备对文本、 ...@@ -9,7 +9,7 @@ Qwen3-Omni 是一款原生的端到端全模态基座模型,具备对文本、
在架构创新上,Qwen3-Omni 采用了基于 MoE(混合专家模型)的 “Thinker–Talker” 设计,结合 AuT 预训练与多码本技术,显著降低了推理延迟。 这种先进的设计使其能够支持极低延迟的流式音视频实时交互,实现自然的对话轮替与即时反馈。此外,模型提供了灵活的系统提示词控制机制,并同步开源了高精度的 30B 级别音频描述器(Captioner),为开源社区在全模态实时感知与复杂任务处理领域提供了强有力的支持。 在架构创新上,Qwen3-Omni 采用了基于 MoE(混合专家模型)的 “Thinker–Talker” 设计,结合 AuT 预训练与多码本技术,显著降低了推理延迟。 这种先进的设计使其能够支持极低延迟的流式音视频实时交互,实现自然的对话轮替与即时反馈。此外,模型提供了灵活的系统提示词控制机制,并同步开源了高精度的 30B 级别音频描述器(Captioner),为开源社区在全模态实时感知与复杂任务处理领域提供了强有力的支持。
<div align=center> <div align=center>
<img src="./doc/qwen3.5_397b_a17b_infra.jpg"/> <img src="./doc/arc2.png"/>
</div> </div>
## 环境依赖 ## 环境依赖
...@@ -62,8 +62,6 @@ pip install numpy==1.25.0 ...@@ -62,8 +62,6 @@ pip install numpy==1.25.0
### vllm ### vllm
#### 单机推理 #### 单机推理
**注意**:使用`K100 AI` 启动服务时需要添加`--disable-custom-all-reduce`参数,加载W8A8模型启动服务时需要添加`-cc.mode=3``-cc.inductor_compile_config='{"combo_kernels": false, "benchmark_combo_kernel": false}'`
```bash ```bash
## serve启动 ## serve启动
...@@ -104,7 +102,7 @@ curl http://localhost:8000/v1/chat/completions \ ...@@ -104,7 +102,7 @@ curl http://localhost:8000/v1/chat/completions \
## 效果展示 ## 效果展示
<div align=center> <div align=center>
<img src="./doc/result-dcu.jpg"/> <img src="./doc/1.png"/>
</div> </div>
### 精度 ### 精度
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment