update README.md

0f34fa74 · weishb · ba769e5f · 0f34fa74 · 0f34fa74
Commit 0f34fa74 authored Feb 25, 2026 by weishb
Hide whitespace changes
Inline Side-by-side

Showing with 7 additions and 2 deletions

README.md README.md +6 -1

model.properties model.properties +1 -1

No files found.
--- a/README.md
+++ b/README.md
@@ -8,10 +8,15 @@
    <img src="./doc/qwen3-tts.png"/>
 </div>
 Qwen3-TTS 覆盖10种主要语言（中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文），并提供多种方言音色配置，以满足全球化的应用需求。此外，该模型具备强大的上下文理解能力，可根据指令和文本语义自适应调节语调、语速和情感表达，并对含噪声的输入文本展现出显著增强的鲁棒性。
 主要特性如下：
 强大的语音表征能力：基于自研的 Qwen3-TTS-Tokenizer-12Hz，实现对语音信号的高效声学压缩与高维语义建模，完整保留副语言信息（如语气、情绪）及声学环境特征，并通过轻量级非 DiT 架构实现高速、高保真的语音重建。
 通用端到端架构：采用离散多码本语言模型（LM）架构，实现全信息端到端语音建模，彻底规避了传统“语言模型 + DiT”方案中存在的信息瓶颈与级联误差问题，显著提升模型的通用性、生成效率和性能上限。
 极致低延迟流式生成：基于创新的双轨混合流式生成架构，单个模型同时支持流式与非流式生成模式。在用户仅输入单个字符后即可立即输出首个音频包，端到端合成延迟低至 97 毫秒，充分满足实时交互场景的严苛要求。
 智能文本理解与语音控制：支持由自然语言指令驱动的语音生成，可灵活调控音色、情感、韵律等多维度声学属性。通过深度融合文本语义理解能力，模型能自适应调整语调、节奏与情感表达，实现“所想即所听”的拟人化语音输出。
@@ -120,7 +125,7 @@ curl -sS http://127.0.0.1:8000/v1/audio/speech \
    "model":"qwen3-tts",
    "text":"哥哥，你回来啦，人家等了你好久好久了，要抱抱！",
    "task_type":"CustomVoice",
-    "speaker":"YourSpeakerName",
+    "speaker":"eric",
    "language":"Auto",
    "instruct":"",
    "generation_params":{

--- a/model.properties
+++ b/model.properties
@@ -9,6 +9,6 @@ processType=推理
 # 算法类别
 appCategory=语音合成
 # 框架类型
-frameType=vllm,transformers
+frameType=vllm,pytorch
 # 加速卡类型
 accelerateType=K100AI