make style

aa4cbf27 · Yoach Lacombe · 9271958b · aa4cbf27 · aa4cbf27 · aa4cbf27
Commit aa4cbf27 authored May 14, 2024 by Yoach Lacombe
7 changed files
--- a/parler_tts/configuration_parler_tts.py
+++ b/parler_tts/configuration_parler_tts.py
--- a/parler_tts/modeling_parler_tts.py
+++ b/parler_tts/modeling_parler_tts.py
@@ -2460,7 +2460,10 @@ class ParlerTTSForConditionalGeneration(PreTrainedModel):
        if "encoder_outputs" not in model_kwargs:
            # encoder_outputs are created and added to `model_kwargs`
            model_kwargs = self._prepare_text_encoder_kwargs_for_generation(
-                inputs_tensor, model_kwargs, model_input_name, generation_config,
+                inputs_tensor,
+                model_kwargs,
+                model_input_name,
+                generation_config,
            )
        if "prompt_hidden_states" not in model_kwargs and "prompt_input_ids" in model_kwargs:

--- a/training/arguments.py
+++ b/training/arguments.py
@@ -3,6 +3,7 @@ from typing import Optional
 from transformers import Seq2SeqTrainingArguments
 @dataclass
 class ModelArguments:
    """
@@ -67,15 +68,18 @@ class ModelArguments:
    )
    asr_model_name_or_path: str = field(
        default="distil-whisper/distil-large-v2",
-        metadata={"help": "Used to compute WER during evaluation. Path to pretrained model or model identifier from huggingface.co/models"}
+        metadata={
+            "help": "Used to compute WER during evaluation. Path to pretrained model or model identifier from huggingface.co/models"
+        },
    )
    clap_model_name_or_path: str = field(
        default="laion/larger_clap_music_and_speech",
-        metadata={"help": "Used to compute audio similarity during evaluation. Path to pretrained model or model identifier from huggingface.co/models"}
+        metadata={
+            "help": "Used to compute audio similarity during evaluation. Path to pretrained model or model identifier from huggingface.co/models"
+        },
    )
 @dataclass
 class DataTrainingArguments:
    """

--- a/training/data.py
+++ b/training/data.py
@@ -11,6 +11,7 @@ from tqdm import tqdm
 from accelerate import Accelerator
 @dataclass
 class DataCollatorEncodecWithPadding:
    """

--- a/training/eval.py
+++ b/training/eval.py
@@ -20,6 +20,7 @@ def clap_similarity(clap_model_name_or_path, texts, audios, device):
    clap_inputs.to("cpu")
    return cosine_sim.mean().to("cpu")
 def wer(asr_model_name_or_path, prompts, audios, device, per_device_eval_batch_size, sampling_rate):
    metric = evaluate.load("wer")
    asr_pipeline = pipeline(model=asr_model_name_or_path, device=device)

--- a/training/run_parler_tts_training.py
+++ b/training/run_parler_tts_training.py
@@ -21,7 +21,6 @@ import os
 import re
 import sys
 import time
-from dataclasses import dataclass, field
 from datetime import timedelta
 from tqdm import tqdm
@@ -38,11 +37,7 @@ from huggingface_hub import HfApi
 from multiprocess import set_start_method
 from torch.utils.data import DataLoader
 from tqdm import tqdm
-from transformers import (
+from transformers import AutoFeatureExtractor, AutoTokenizer, HfArgumentParser
-    AutoFeatureExtractor,
-    AutoTokenizer,
-    HfArgumentParser
-)
 from transformers.trainer_pt_utils import LengthGroupedSampler
 from transformers.optimization import get_scheduler
 from transformers.trainer_pt_utils import LengthGroupedSampler
@@ -306,9 +301,7 @@ def main():
    # update pad token id and decoder_start_token_id
    config.update(
        {
-            "pad_token_id": model_args.pad_token_id
+            "pad_token_id": model_args.pad_token_id if model_args.pad_token_id is not None else config.pad_token_id,
-            if model_args.pad_token_id is not None
-            else config.pad_token_id,
            "decoder_start_token_id": model_args.decoder_start_token_id
            if model_args.decoder_start_token_id is not None
            else config.decoder_start_token_id,
@@ -583,12 +576,14 @@ def main():
        clap_score = clap_similarity(model_args.clap_model_name_or_path, texts, audios, device)
        results["clap"] = clap_score
-        word_error, transcriptions = wer(model_args.asr_model_name_or_path,
+        word_error, transcriptions = wer(
+            model_args.asr_model_name_or_path,
            prompts,
            audios,
            device,
            training_args.per_device_eval_batch_size,
-                                        sampling_rate)
+            sampling_rate,
+        )
        results["wer"] = word_error
        return results, texts, prompts, audios, transcriptions
@@ -878,7 +873,9 @@ def main():
                    accelerator.save_state(output_dir=intermediate_dir, safe_serialization=False)
                    accelerator.wait_for_everyone()
                    if accelerator.is_main_process:
-                        rotate_checkpoints(training_args.save_total_limit, output_dir=training_args.output_dir, logger=logger)
+                        rotate_checkpoints(
+                            training_args.save_total_limit, output_dir=training_args.output_dir, logger=logger
+                        )
                        if cur_step == total_train_steps:
                            # un-wrap student model for save

--- a/training/utils.py
+++ b/training/utils.py
@@ -8,6 +8,7 @@ from typing import Dict, List
 import torch
 from wandb import Audio
 def list_field(default=None, metadata=None):
    return field(default_factory=lambda: default, metadata=metadata)