update example config + add script to init dummy model

226fe07f · Yoach Lacombe · fc66e60b · 226fe07f · 226fe07f
Commit 226fe07f authored Feb 21, 2024 by Yoach Lacombe
Hide whitespace changes
Inline Side-by-side

Showing with 52 additions and 6 deletions

example_configs/librispeech_tts_r.json example_configs/librispeech_tts_r.json +9 -6

init_dummy_model.py init_dummy_model.py +43 -0

No files found.
--- a/example_configs/librispeech_tts_r.json
+++ b/example_configs/librispeech_tts_r.json
 {
-    "model_name_or_path": "ylacombe/musicgen-melody",
+    "model_name_or_path": "/home/yoach/dataspeech/artefacts/tiny-model/",
+    "feature_extractor_name":"facebook/encodec_24khz",
+    "description_tokenizer_name":"t5-base",
+    "prompt_tokenizer_name":"t5-base",
    "push_to_hub": false,
    "hub_model_id": "stable-speech-mini",
@@ -18,8 +21,8 @@
    "eval_split_name": "test.clean+test.other",
    "target_audio_column_name": "audio", 
-    "description_column_name": "text",
+    "description_column_name": "text_description",
-    "prompt_column_name": "text_description",
+    "prompt_column_name": "text",
    "max_train_samples": 1000,
    "max_eval_samples": 200,
@@ -31,7 +34,7 @@
    "add_audio_samples_to_wandb": true,
    "id_column_name": "id",
-    "preprocessing_num_workers": 24,
+    "preprocessing_num_workers": 1,
    "pad_token_id": 2048,
    "decoder_start_token_id": 2048,
@@ -40,7 +43,7 @@
    "num_train_epochs": 20,
    "gradient_accumulation_steps": 1,
    "gradient_checkpointing": true,
-    "per_device_train_batch_size": 2,
+    "per_device_train_batch_size": 16,
    "learning_rate": 1e-6,
    "adam_beta1": 0.9,
    "adam_beta2": 0.95,
@@ -53,7 +56,7 @@
    "predict_with_generate": true,
    "include_inputs_for_metrics": true,
    "evaluation_strategy": "epoch",
-    "per_device_eval_batch_size": 2,
+    "per_device_eval_batch_size": 16,
    "generation_max_length": 400,
    "fp16": true,

--- a/init_dummy_model.py
+++ b/init_dummy_model.py
+from stable_speech import StableSpeechConfig, StableSpeechForCausalLM, StableSpeechForConditionalGeneration, StableSpeechDecoderConfig
+from transformers import T5Config, EncodecConfig
+decoder_config = StableSpeechDecoderConfig(
+    max_position_embeddings=1024,
+    num_hidden_layers=2,
+    ffn_dim=256,
+    num_attention_heads=4,
+    layerdrop=0.0,
+    use_cache=True,
+    activation_function="gelu",
+    hidden_size=256,
+    dropout=0.1,
+    attention_dropout=0.1,
+    activation_dropout=0.1,
+)
+# TODO: ?? how to make it stop ?
+decoder = StableSpeechForCausalLM(decoder_config)
+decoder.save_pretrained("/home/yoach/dataspeech/artefacts/decoder/")
+model = StableSpeechForConditionalGeneration.from_sub_models_pretrained(
+    text_encoder_pretrained_model_name_or_path="t5-base",
+    audio_encoder_pretrained_model_name_or_path="facebook/encodec_32khz",
+    decoder_pretrained_model_name_or_path="/home/yoach/dataspeech/artefacts/decoder/",
+)
+# set the appropriate bos/pad token ids
+model.generation_config.decoder_start_token_id = 2048
+model.generation_config.pad_token_id = 2048
+# set other default generation config params
+model.generation_config.max_length = int(30 * model.audio_encoder.config.frame_rate)
+model.generation_config.do_sample = True
+model.generation_config.guidance_scale = 3.0
+model.save_pretrained("/home/yoach/dataspeech/artefacts/tiny-model/")
\ No newline at end of file