Commit ba769e5f authored by weishb's avatar weishb
Browse files

Update the README file

parent e3cdb305
Pipeline #3392 failed with stages
in 0 seconds
......@@ -16,8 +16,6 @@ Qwen3-TTS 覆盖10种主要语言(中文、英文、日文、韩文、德文
## 环境依赖
- 列举基础环境需求,根据实际情况填写
| 软件 | 版本 |
| :------: | :------: |
| DTK | 25.04.2 |
......@@ -27,8 +25,7 @@ Qwen3-TTS 覆盖10种主要语言(中文、英文、日文、韩文、德文
| torchaudio | 2.5.1+das.opt1.dtk25042.20251127.g10a9ffcd |
| transformer_engine | 2.5.0+das.opt1.dtk25042 |
推荐使用镜像:harbor.sourcefind.cn:5443/dcu/admin/base/vllm:0.9.2-ubuntu22.04-dtk26.04-0130-py3.10-20260202
- 挂载地址`-v``{docker_name}``{docker_image_name}`根据实际模型情况修改
推荐使用镜像:harbor.sourcefind.cn:5443/dcu/admin/base/vllm:0.9.2-ubuntu22.04-dtk25.04.2-1226-das1.7-py3.10-20251226
```bash
docker run -it \
......@@ -49,8 +46,7 @@ docker run -it \
```
更多镜像可前往[光源](https://sourcefind.cn/#/service-list)下载使用。
关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装
其它包参照requirements.txt安装:
关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装,其它包参照requirements.txt安装:
```
pip install -r requirements.txt
```
......@@ -87,9 +83,11 @@ Voice Clone
python test_model_12hz_base.py
```
### vllm
#### 单机推理(以VoiceDesign为例子,CustomVoice和Voice Clone需要切换模型)
#### 单机推理
启动服务
```bash
#以VoiceDesign为例子,CustomVoice和Voice Clone需要使用不同的模型
VLLM_USE_V1=0 python -m vllm.entrypoints.openai.api_server --model Qwen3-TTS/Qwen3-TTS-12Hz-1.7B-VoiceDesign --served-model-name qwen3-tts --host 0.0.0.0 --port 8000 --trust-remote-code --dtype bfloat16 --disable-async-output-proc
```
调用服务:
......@@ -166,14 +164,14 @@ curl -sS http://127.0.0.1:8000/v1/audio/speech \
示例输出音频:output_audio\output.wav
### 精度
`DCU与GPU精度一致,推理框架:vllm`
`DCU与GPU精度一致,推理框架:vllm,transformers`
## 预训练权重
| 模型名称 | 权重大小 | DCU型号 | 最低卡数需求 |下载地址|
|:-----:|:----------:|:----------:|:---------------------:|:----------:|
| Qwen3-TTS-12Hz-1.7B-VoiceDesign | 1.7B | K100AI | 1 | [Modelscope] https://www.modelscope.cn/models/Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign|
| Qwen3-TTS-12Hz-1.7B-CustomVoice | 1.7B | K100AI | 1 | [Modelscope] https://www.modelscope.cn/models/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice|
| Qwen3-TTS-12Hz-1.7B-Base | 1.7B | K100AI | 1 | [Modelscope] https://www.modelscope.cn/models/Qwen/Qwen3-TTS-12Hz-1.7B-Base|
| Qwen3-TTS-12Hz-1.7B-VoiceDesign | 1.7B | K100AI | 1 | [Modelscope](https://www.modelscope.cn/models/Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign)|
| Qwen3-TTS-12Hz-1.7B-CustomVoice | 1.7B | K100AI | 1 | [Modelscope](https://www.modelscope.cn/models/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice)|
| Qwen3-TTS-12Hz-1.7B-Base | 1.7B | K100AI | 1 | [Modelscope](https://www.modelscope.cn/models/Qwen/Qwen3-TTS-12Hz-1.7B-Base)|
## 源码仓库及问题反馈
- https://developer.sourcefind.cn/codes/weishb/qwen3-tts_pytorch
......
File suppressed by a .gitattributes entry or the file's encoding is unsupported.
# 模型唯一标识
modelCode=2047
modelCode=2068
# 模型名称
modelName=Qwen3-TTS_pytorch
# 模型描述
......@@ -9,6 +9,6 @@ processType=推理
# 算法类别
appCategory=语音合成
# 框架类型
frameType=vllm
frameType=vllm,transformers
# 加速卡类型
accelerateType=K100AI
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment