v1.0.1

e80d2275 · chenzk · 39ac40a9 · e80d2275
Commit e80d2275 authored Jun 17, 2025 by chenzk
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

README.md README.md +2 -2

No files found.
--- a/README.md
+++ b/README.md
@@ -14,9 +14,9 @@ VITA-Audio的核心组件包括音频编码器、音频解码器、LLM、十个
 ## 算法原理
 语音Token随着语言模型（LLM）前向传播被逐步自回归地生成；然后多个已生成的语音Token会被收集并送入解码器，最终合成为可播放的音频，本算法创新点：
-1、语音模型在预测某个音频Token时，对应的文本Token Hidden States所承载的注意力权重显著高于其他位置，语音生成并不需要对整个文本—音频序列的全局语义空间进行复杂建模；
+1、语音模型在预测某个音频Token时，对应的文本Token Hidden States所承载的注意力权重显著高于其他位置，语音生成并不需要对整个文本—音频序列的全局语义空间进行复杂建模，对需要的局部解码就能生成正确的语音，MCTP小模块即可实现解码；
-2、多个MCTP模块直接在单次前向传播中并行预测多个音频Token，大幅减少自回归循环次数，不仅加速了整体推理流程，更显著降低了流式场景下首个音频片段的生成延迟；
+2、多个MCTP小模块直接在单次前向传播中预测到首个文本token就并行预测多个音频Tokens，大幅减少主模型LLM的自回归循环次数，不仅加速了整体推理流程，更显著降低了流式场景下首个音频片段的生成延迟；
 <div align=center>
    <img src="./doc/relative.png"/>
 </div>