Commit ad3d6f4a authored by liugh5's avatar liugh5
Browse files

update

parent ee10550a
Pipeline #791 canceled with stages
in 0 seconds
...@@ -12,17 +12,17 @@ ...@@ -12,17 +12,17 @@
2. Encoder部分采用BERT进行初始化,引入更多文本信息,提升合成韵律。 2. Encoder部分采用BERT进行初始化,引入更多文本信息,提升合成韵律。
3. Variance Adaptor对音素级别的韵律(基频、能量、时长)轮廓进行粗粒度的预测,再通过decoder进行帧级别细粒度的建模;并在时长预测时考虑到其与基频、能量的关联信息,结合自回归结构,进一步提升韵律自然度. 3. Variance Adaptor对音素级别的韵律(基频、能量、时长)轮廓进行粗粒度的预测,再通过decoder进行帧级别细粒度的建模;并在时长预测时考虑到其与基频、能量的关联信息,结合自回归结构,进一步提升韵律自然度.
4. Decoder部分采用PNCA AR-Decoder[@li2020robutrans],自然支持流式合成。 4. Decoder部分采用PNCA AR-Decoder[@li2020robutrans],自然支持流式合成。
![sambert.jpg](.\assets\sambert.jpg) ![sambert.jpg](assets%2Fsambert.jpg)
## 算法原理 ## 算法原理
如果需要进行迁移学习,那么需要先构建多说话人的声学模型,不同说话人是通过可训练的说话人编码(speaker embedding)进行区分的。给定新的一个说话人,一般通过随机初始化一个speaker embedding,然后再基于这个说话人的数据进行更新(见下图说话人空间1)。对于个性化语音合成来说,发音人的数据量比较少,学习难度很大,最终合成声音的相似度就无法保证。因此,我们采用说话人特征信息来表示每个说话人,此时,以少量说话人数据初始化的 speaker embedding 距离实际的目标说话人更近得多(见下图说话人空间2),学习难度小,此时合成声音的相似度就比较高。采用基于说话人特征信息的个性化语音合成,使得在20句条件下,依旧能够有较好的相似度。 如果需要进行迁移学习,那么需要先构建多说话人的声学模型,不同说话人是通过可训练的说话人编码(speaker embedding)进行区分的。给定新的一个说话人,一般通过随机初始化一个speaker embedding,然后再基于这个说话人的数据进行更新(见下图说话人空间1)。对于个性化语音合成来说,发音人的数据量比较少,学习难度很大,最终合成声音的相似度就无法保证。因此,我们采用说话人特征信息来表示每个说话人,此时,以少量说话人数据初始化的 speaker embedding 距离实际的目标说话人更近得多(见下图说话人空间2),学习难度小,此时合成声音的相似度就比较高。采用基于说话人特征信息的个性化语音合成,使得在20句条件下,依旧能够有较好的相似度。
![feature_space.png](.\assets\feature_space.png) ![feature_space.png](assets%2Ffeature_space.png)
模型框架主要由三个部分组成: 模型框架主要由三个部分组成:
1.数据自动化处理和标注 1.数据自动化处理和标注
2.韵律建模SAMBERT声学模型 2.韵律建模SAMBERT声学模型
3.基于说话人特征信息的个性化语音合成 3.基于说话人特征信息的个性化语音合成
![ptts.png](.\assets\ptts.png) ![ptts.png](assets%2Fptts.png)
## 环境配置 ## 环境配置
### Docker (方法一) ### Docker (方法一)
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment