update

ad3d6f4a · liugh5 · ee10550a · ad3d6f4a
Commit ad3d6f4a authored Feb 06, 2024 by liugh5
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 3 deletions

README.md README.md +3 -3

No files found.
--- a/README.md
+++ b/README.md
@@ -12,17 +12,17 @@
 2. Encoder部分采用BERT进行初始化，引入更多文本信息，提升合成韵律。
 3. Variance Adaptor对音素级别的韵律(基频、能量、时长)轮廓进行粗粒度的预测，再通过decoder进行帧级别细粒度的建模;并在时长预测时考虑到其与基频、能量的关联信息，结合自回归结构，进一步提升韵律自然度.
 4. Decoder部分采用PNCA AR-Decoder[@li2020robutrans]，自然支持流式合成。
-![sambert.jpg](.\assets\sambert.jpg)
+![sambert.jpg](assets%2Fsambert.jpg)
 ## 算法原理
 如果需要进行迁移学习，那么需要先构建多说话人的声学模型，不同说话人是通过可训练的说话人编码（speaker embedding）进行区分的。给定新的一个说话人，一般通过随机初始化一个speaker embedding，然后再基于这个说话人的数据进行更新（见下图说话人空间1）。对于个性化语音合成来说，发音人的数据量比较少，学习难度很大，最终合成声音的相似度就无法保证。因此，我们采用说话人特征信息来表示每个说话人，此时，以少量说话人数据初始化的 speaker embedding 距离实际的目标说话人更近得多（见下图说话人空间2），学习难度小，此时合成声音的相似度就比较高。采用基于说话人特征信息的个性化语音合成，使得在20句条件下，依旧能够有较好的相似度。
-![feature_space.png](.\assets\feature_space.png)
+![feature_space.png](assets%2Ffeature_space.png)
 模型框架主要由三个部分组成：
 1.数据自动化处理和标注
 2.韵律建模SAMBERT声学模型
 3.基于说话人特征信息的个性化语音合成
-![ptts.png](.\assets\ptts.png)
+![ptts.png](assets%2Fptts.png)
 ## 环境配置
 ### Docker (方法一)