Merge pull request #49 from choiHkk/hotfix/datacollator_sampling_rate

[fix] Add fixed sampling rate to feature extractor

Merge pull request #49 from choiHkk/hotfix/datacollator_sampling_rate
[fix] Add fixed sampling rate to feature extractor
c2b90bdc · Sanchit Gandhi · GitHub · bdb03638 · 1d0cc015 · c2b90bdc
Unverified Commit c2b90bdc authored May 18, 2024 by Sanchit Gandhi Committed by GitHub May 18, 2024
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 1 deletion

training/data.py training/data.py +6 -1

No files found.
--- a/training/data.py
+++ b/training/data.py
@@ -31,7 +31,12 @@ class DataCollatorEncodecWithPadding:
        audios = [feature[self.audio_column_name]["array"] for feature in features]
        len_audio = [len(audio) for audio in audios]
-        batch = self.feature_extractor(audios, return_tensors="pt", padding=self.padding, max_length=self.max_length)
+        # since resampling has already been performed in the 'load_multiple_datasets' function, 
+        # a fixed sampling_rate(44100hz) is passed to the feature_extractor.
+        sampling_rate = self.feature_extractor.sampling_rate
+        batch = self.feature_extractor(
+            audios, sampling_rate=sampling_rate, return_tensors="pt", padding=self.padding, max_length=self.max_length
+        )
        batch["len_audio"] = torch.tensor(len_audio).unsqueeze(1)
        return batch