Assitant model may on a different device (#27995)

* Assitant model may on a different device * fix tensor device

Assitant model may on a different device (#27995)
* Assitant model may on a different device * fix tensor device
8205b264 · jiqing-feng · GitHub · cbbe3074 · 8205b264 · 8205b264
Unverified Commit 8205b264 authored Jan 11, 2024 by jiqing-feng Committed by GitHub Jan 11, 2024
Showing with 14 additions and 2 deletions

src/transformers/generation/candidate_generator.py src/transformers/generation/candidate_generator.py +8 -1

src/transformers/generation/utils.py src/transformers/generation/utils.py +6 -1

No files found.
--- a/src/transformers/generation/candidate_generator.py
+++ b/src/transformers/generation/candidate_generator.py
@@ -96,6 +96,11 @@ class AssistedCandidateGenerator(CandidateGenerator):
        model_kwargs: Dict,
        inputs_tensor: Optional[torch.Tensor] = None,
    ):
+        # Make sure all data at the same device as assistant model
+        device = assistant_model.device
+        input_ids = input_ids.to(device)
+        inputs_tensor = inputs_tensor.to(device)
        # Prepare the assistant and the starting number of candidate tokens
        self.assistant_model = assistant_model
        self.num_assistant_tokens = assistant_model.generation_config.num_assistant_tokens
@@ -104,7 +109,9 @@ class AssistedCandidateGenerator(CandidateGenerator):
        assistant_kwargs = {}
        for key, value in model_kwargs.items():  # deepcopy crashes if we attempt to copy encoder outputs with grads
            if key not in ("encoder_outputs", "assistant_encoder_outputs"):
-                assistant_kwargs[key] = value.detach() if isinstance(value, torch.Tensor) else copy.deepcopy(value)
+                assistant_kwargs[key] = (
+                    value.detach().to(device) if isinstance(value, torch.Tensor) else copy.deepcopy(value)
+                )
        if "assistant_encoder_outputs" in model_kwargs:
            assistant_kwargs["encoder_outputs"] = model_kwargs["assistant_encoder_outputs"]

--- a/src/transformers/generation/utils.py
+++ b/src/transformers/generation/utils.py
@@ -4585,7 +4585,12 @@ class GenerationMixin:
            cur_len = input_ids.shape[-1]
            #  1. Fetch candidate sequences from a `CandidateGenerator`
-            candidate_input_ids, candidate_logits = candidate_generator.get_candidates(input_ids)
+            candidate_input_ids, candidate_logits = candidate_generator.get_candidates(
+                input_ids.to(candidate_generator.assistant_model.device)
+            )
+            candidate_input_ids = candidate_input_ids.to(self.device)
+            candidate_logits = candidate_logits.to(self.device)
            candidate_length = candidate_input_ids.shape[1] - input_ids.shape[1]
            last_assistant_token_is_eos = (
                ~candidate_input_ids[:, -1]