make style

c734f3ec · Yoach Lacombe · a664e0ca · c734f3ec · c734f3ec · c734f3ec
Commit c734f3ec authored Apr 08, 2024 by Yoach Lacombe
4 changed files
--- a/helpers/gradio_demo/app.py
+++ b/helpers/gradio_demo/app.py
@@ -95,9 +95,7 @@ with gr.Blocks(css=css) as block:
            description = gr.Textbox(label="Description", lines=2, value="", elem_id="input_description")
            run_button = gr.Button("Generate Audio", variant="primary")
        with gr.Column():
-            audio_out = gr.Audio(
+            audio_out = gr.Audio(label="Parler-TTS generation", type="numpy", elem_id="audio_out")
-                label="Parler-TTS generation", type="numpy", elem_id="audio_out"
-            )
    inputs = [input_text, description]
    outputs = [audio_out]

--- a/helpers/model_init_scripts/init_dummy_model.py
+++ b/helpers/model_init_scripts/init_dummy_model.py
@@ -22,7 +22,6 @@ if __name__ == "__main__":
    num_codebooks = encodec.num_codebooks
    print("num_codebooks", num_codebooks)
    decoder_config = ParlerTTSDecoderConfig(
        vocab_size=encodec_vocab_size + 1,
        max_position_embeddings=2048,
@@ -42,11 +41,9 @@ if __name__ == "__main__":
        num_codebooks=num_codebooks,
    )
    decoder = ParlerTTSForCausalLM(decoder_config)
    decoder.save_pretrained(os.path.join(args.save_directory, "decoder"))
    model = ParlerTTSForConditionalGeneration.from_sub_models_pretrained(
        text_encoder_pretrained_model_name_or_path=text_model,
        audio_encoder_pretrained_model_name_or_path=encodec_version,

--- a/helpers/model_init_scripts/init_dummy_model_with_encodec.py
+++ b/helpers/model_init_scripts/init_dummy_model_with_encodec.py
@@ -41,7 +41,6 @@ if __name__ == "__main__":
    decoder.save_pretrained(os.path.join(args.save_directory, "decoder"))
    model = ParlerTTSForConditionalGeneration.from_sub_models_pretrained(
        text_encoder_pretrained_model_name_or_path=text_model,
        audio_encoder_pretrained_model_name_or_path=encodec_version,

--- a/helpers/model_init_scripts/init_model_300M.py
+++ b/helpers/model_init_scripts/init_model_300M.py
@@ -22,7 +22,6 @@ if __name__ == "__main__":
    num_codebooks = encodec.num_codebooks
    print("num_codebooks", num_codebooks)
    decoder_config = ParlerTTSDecoderConfig(
        vocab_size=encodec_vocab_size + 64,  # + 64 instead of +1 to have a multiple of 64
        max_position_embeddings=4096,  # 30 s = 2580
@@ -42,11 +41,9 @@ if __name__ == "__main__":
        num_codebooks=num_codebooks,
    )
    decoder = ParlerTTSForCausalLM(decoder_config)
    decoder.save_pretrained(os.path.join(args.save_directory, "decoder"))
    model = ParlerTTSForConditionalGeneration.from_sub_models_pretrained(
        text_encoder_pretrained_model_name_or_path=text_model,
        audio_encoder_pretrained_model_name_or_path=encodec_version,
@@ -64,5 +61,4 @@ if __name__ == "__main__":
    model.generation_config.do_sample = True  # True
    model.generation_config.guidance_scale = 1  # 3.0
+    model.save_pretrained(os.path.join(args.save_directory, "stable-speech-untrained-300M/"))
-    model.save_pretrained(os.path.join(args.save_directory,"stable-speech-untrained-300M/"))