# RVC 一个基于VITS简单易用的变声框架,使用少量数据进行训练也能得到较好结果,方便直播娱乐。 ## 论文 `Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech` - https://proceedings.mlr.press/v139/kim21f/kim21f.pdf ## 模型结构 VITS是一个基于Flow算法的端到端TTS模型,结合VAE、FLOW和GAN三种算法,提出随机持续时间预测器处理不同节奏,通过MonotonicAlignmentSearch实现文本和音频的对齐。