Add qwen3-asr

d7b5213e · weishb · d7b5213e · d7b5213e · d7b5213e · d7b5213e
Commit d7b5213e authored Mar 04, 2026 by weishb
10 changed files
--- a/README.md
+++ b/README.md
+# Qwen3-ASR
+## 论文
+[Qwen3-ASR Technical Report](https://arxiv.org/abs/2601.21337)
+
+## 模型简介
+Qwen3-ASR 是通义千问（Qwen）开源的自动语音识别模型系列，包含 `Qwen3-ASR-1.7B`、`Qwen3-ASR-0.6B` 以及时间戳对齐模型 `Qwen3-ForcedAligner-0.6B`。该系列支持 30 种语言与 22 种中文方言的语音识别，覆盖离线与流式推理场景，并支持语言识别与时间戳预测。
+
+<div align=center>
+    <img src="./doc/overview.jpg"/>
+</div>
+
+## 环境依赖
+| 软件 | 版本 |
+| :------: | :------: |
+| DTK | 26.04 |
+| python | 3.10.12 |
+| torch | 2.9.0+das.opt1.dtk2604.20260206.g275d08c2 |
+| transformers | 4.57.6 |
+| vllm | 0.15.1+das.opt1.alpha.dtk2604.20260220.g2799735a |
+
+推荐使用镜像：`harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220`
+
+```bash
+docker run -it \
+    --shm-size 60g \
+    --network=host \
+    --name qwen3-asr \
+    --privileged \
+    --device=/dev/kfd \
+    --device=/dev/dri \
+    --device=/dev/mkfd \
+    --group-add video \
+    --cap-add=SYS_PTRACE \
+    --security-opt seccomp=unconfined \
+    -u root \
+    -v /opt/hyhal/:/opt/hyhal/:ro \
+    -v /path/your_code_data/:/path/your_code_data/ \
+    harbor.sourcefind.cn:5443/dcu/admin/base/custom:vllm0.15.1-ubuntu22.04-dtk26.04-0130-py3.10-20260220 bash
+```
+更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。
+关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装。
+其它包参照requirements.txt安装：
+```bash
+pip install -r requirements.txt
+```
+镜像内其他环境配置
+```
+1.解压vllm.zip到/usr/local/lib/python3.10/dist-packages直接覆盖需要修改的文件
+    unzip -o vllm.zip -d /usr/local/lib/python3.10/dist-packages
+```
+
+## 数据集
+暂无
+
+## 训练
+暂无
+
+## 推理
+### transformers
+#### 单机推理
+```bash
+python inference.py
+```
+
+### vllm
+#### 单机推理
+```bash
+## serve启动
+export VLLM_USE_FUSED_RMS_ROPE=0
+
+vllm serve Qwen3-ASR/Qwen3-ASR-1.7B \
+    --trust-remote-code \
+    --limit-mm-per-prompt '{"audio": 1}'
+
+## client访问
+curl -X POST "http://127.0.0.1:8000/v1/audio/transcriptions" \
+    -F "file=@/path/to/test.wav" \
+    -F "model=/public/home/weishb/Qwen3-ASR/Qwen3-ASR-1.7B"
+```
+
+## 效果展示
+示例输入音频：`./doc/asr_en.wav`
+<div align=center>
+    <img src="./doc/vllm_result.png"/>
+</div>
+
+
+### 精度
+`DCU与GPU精度一致，推理框架：transformers、vllm`
+
+## 预训练权重
+| 模型名称  | 权重大小  | DCU型号  | 最低卡数需求 | 下载地址 |
+|:-----:|:----------:|:----------:|:---------------------:|:----------:|
+| Qwen3-ASR-1.7B | 1.7B | BW1000 | 1 | [ModelScope](https://www.modelscope.cn/models/Qwen/Qwen3-ASR-1.7B) |
+| Qwen3-ASR-0.6B | 0.6B | BW1000 | 1 | [ModelScope](https://www.modelscope.cn/models/Qwen/Qwen3-ASR-0.6B) |
+| Qwen3-ForcedAligner-0.6B | 0.6B | BW1000 | 1 | [ModelScope](https://www.modelscope.cn/models/Qwen/Qwen3-ForcedAligner-0.6B) |
+
+## 源码仓库及问题反馈
+- [ModelZoo 项目地址](https://developer.sourcefind.cn/codes/modelzoo/qwen3-asr)
+
+## 参考资料
+- [Qwen3-ASR 官方仓库](https://github.com/QwenLM/Qwen3-ASR)
+- [Qwen3-ASR ModelScope 集合页](https://modelscope.cn/collections/Qwen/Qwen3-ASR)
+- [Qwen3-ASR 官方博客](https://qwen.ai/blog?id=qwen3asr)
--- a/README_origin.md
+++ b/README_origin.md
--- a/doc/asr_en.wav
+++ b/doc/asr_en.wav
--- a/doc/overview.jpg
+++ b/doc/overview.jpg
--- a/doc/vllm_result.png
+++ b/doc/vllm_result.png
--- a/icon.png
+++ b/icon.png
--- a/inference.py
+++ b/inference.py
+import torch
+from qwen_asr import Qwen3ASRModel
+
+model = Qwen3ASRModel.from_pretrained(
+    "Qwen/Qwen3-ASR-1.7B",
+    dtype=torch.bfloat16,
+    device_map="cuda:0",
+    # attn_implementation="flash_attention_2",
+    max_inference_batch_size=32, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
+    max_new_tokens=256, # Maximum number of tokens to generate. Set a larger value for long audio input.
+)
+
+results = model.transcribe(
+    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
+    language=None, # set "English" to force the language
+)
+
+print(results[0].language)
+print(results[0].text)
\ No newline at end of file
--- a/model.properties
+++ b/model.properties
+# 模型唯一标识
+modelCode=2144
+# 模型名称
+modelName=Qwen3-ASR_pytorch
+# 模型描述
+modelDescription=Qwen3-ASR 是通义千问（Qwen）开源的自动语音识别模型系列
+# 运行过程
+processType=推理
+# 算法类别
+appCategory=语言识别
+# 框架类型
+frameType=vllm,pytorch
+# 加速卡类型
+accelerateType=BW1000
--- a/requirements.txt
+++ b/requirements.txt
+transformers==4.57.6
+nagisa==0.2.11
+soynlp==0.0.493
+accelerate==1.12.0
+qwen-omni-utils
+librosa
+soundfile
+sox
+gradio
+flask
+pytz
+pycountry
\ No newline at end of file
--- a/vllm.zip
+++ b/vllm.zip