[VITS] Fix speaker_embed device mismatch (#26115)

* [VITS] Fix speaker_embed device mismatch - pass device arg to speaker_id tensor * [VITS] put speaker_embed on device when int * [VITS] device=self.device instead of self.embed_speaker.weight.device * [VITS] make tensor directly on device using torch.full()

[VITS] Fix speaker_embed device mismatch (#26115)
* [VITS] Fix speaker_embed device mismatch - pass device arg to speaker_id tensor * [VITS] put speaker_embed on device when int * [VITS] device=self.device instead of self.embed_speaker.weight.device * [VITS] make tensor directly on device using torch.full()
52e2c13d · Fakhir Ali · GitHub · 098c3f40 · 52e2c13d
Unverified Commit 52e2c13d authored Sep 28, 2023 by Fakhir Ali Committed by GitHub Sep 28, 2023
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

src/transformers/models/vits/modeling_vits.py src/transformers/models/vits/modeling_vits.py +3 -1

No files found.
--- a/src/transformers/models/vits/modeling_vits.py
+++ b/src/transformers/models/vits/modeling_vits.py
@@ -1435,7 +1435,9 @@ class VitsModel(VitsPreTrainedModel):
        if self.config.num_speakers > 1 and speaker_id is not None:
            if not 0 <= speaker_id < self.config.num_speakers:
                raise ValueError(f"Set `speaker_id` in the range 0-{self.config.num_speakers - 1}.")
-            speaker_embeddings = self.embed_speaker(torch.tensor([speaker_id])).unsqueeze(-1)
+            if isinstance(speaker_id, int):
+                speaker_id = torch.full(size=(1,), fill_value=speaker_id, device=self.device)
+            speaker_embeddings = self.embed_speaker(speaker_id).unsqueeze(-1)
        else:
            speaker_embeddings = None