Commit e80d2275 authored by chenzk's avatar chenzk
Browse files

v1.0.1

parent 39ac40a9
......@@ -14,9 +14,9 @@ VITA-Audio的核心组件包括音频编码器、音频解码器、LLM、十个
## 算法原理
语音Token随着语言模型(LLM)前向传播被逐步自回归地生成;然后多个已生成的语音Token会被收集并送入解码器,最终合成为可播放的音频,本算法创新点:
1、语音模型在预测某个音频Token时,对应的文本Token Hidden States所承载的注意力权重显著高于其他位置,语音生成并不需要对整个文本—音频序列的全局语义空间进行复杂建模;
1、语音模型在预测某个音频Token时,对应的文本Token Hidden States所承载的注意力权重显著高于其他位置,语音生成并不需要对整个文本—音频序列的全局语义空间进行复杂建模,对需要的局部解码就能生成正确的语音,MCTP小模块即可实现解码
2、多个MCTP模块直接在单次前向传播中并行预测多个音频Token,大幅减少自回归循环次数,不仅加速了整体推理流程,更显著降低了流式场景下首个音频片段的生成延迟;
2、多个MCTP模块直接在单次前向传播中预测到首个文本token就并行预测多个音频Tokens,大幅减少主模型LLM的自回归循环次数,不仅加速了整体推理流程,更显著降低了流式场景下首个音频片段的生成延迟;
<div align=center>
<img src="./doc/relative.png"/>
</div>
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment