Commit ed5618bb authored by liugh5's avatar liugh5
Browse files

update

parent 51782715
# sambert-hifigan_pytorch
## 论文
[RobuTrans: A Robust Transformer-Based Text-to-Speech Model](https://ojs.aaai.org/index.php/AAAI/article/view/6337)
[HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis](https://arxiv.org/abs/2010.05646)
## 模型结构
韵律建模sambert声学模型:在语音合成领域,类似FastSpeech的Parallel模型是目前的主流,它针对基频(pitch)、能量(energy)和时长(duration)三种韵律表征分别建模。但是,该类模型普遍存在一些效果和性能上的问题,例如,独立建模时长、基频、能量,忽视了其内在联系;完全非自回归的网络结构,无法满足工业级实时合成需求;帧级别基频和能量预测不稳定。 因此达摩院语音实验室设计了SAMBERT,一种基于Parallel结构的改良版TTS模型,它具有以下优点:
1. Backbone采用Self-Attention-Mechanism(SAM),提升模型建模能力。
2. Encoder部分采用BERT进行初始化,引入更多文本信息,提升合成韵律。
......@@ -55,16 +53,16 @@ cd /path/your_code_data/
```
之后参考方法一。
###Conda(方式三)
### Conda(方式三)
1. 创建conda虚拟环境:
```
conda create -n <env_name> python=3.8
```
2. 关于本项目DCU显卡所需的工具包、深度学习库等均可从[光合](https://www.hpccube.com/sso/login?service=https://developer.hpccube.com/tool/)开发者社区下载安装。
```
DTK驱动:[dtk23.10](https://cancon.hpccube.com:65024/1/main/DTK-23.10)
pytorch:[1.13.1](https://cancon.hpccube.com:65024/4/main/pytorch/dtk23.10)
```
<table><tr><td bgcolor=gray>Tips:以上dtk驱动、python、paddle等DCU相关工具版本需要严格一一对应。</td></tr></table>
其它非深度学习库参照requirements.txt安装:
......@@ -93,7 +91,7 @@ python3 wav_to_label.py --wav_data Data/ptts_spk0_wav
```
bash feats_extract.sh
```
注意修改相应的模型路径。
注意修改相应的模型路径。
特征提取只需要运行一小段时间,提取完毕后你会在training_stage/test_male_ptts_feats目录下得到如下结构的文件:
```
├── am_train.lst
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment