Create the arange tensor on device for enabling CUDA-Graph for Clip Encoder (#19503)

* create the arange tensor on device for enabling CUDA-Graph at higher-performace for SD * sync Co-authored-by: Stas Bekman <stas@stason.org>

Create the arange tensor on device for enabling CUDA-Graph for Clip Encoder (#19503)
* create the arange tensor on device for enabling CUDA-Graph at higher-performace for SD * sync Co-authored-by: Stas Bekman <stas@stason.org>
f6fa0f0b · Reza Yazdani · GitHub · 6cd8676c · f6fa0f0b · f6fa0f0b
Unverified Commit f6fa0f0b authored Oct 12, 2022 by Reza Yazdani Committed by GitHub Oct 12, 2022
Showing with 2 additions and 2 deletions

src/transformers/models/clip/modeling_clip.py src/transformers/models/clip/modeling_clip.py +1 -1

src/transformers/models/groupvit/modeling_groupvit.py src/transformers/models/groupvit/modeling_groupvit.py +1 -1

No files found.
--- a/src/transformers/models/clip/modeling_clip.py
+++ b/src/transformers/models/clip/modeling_clip.py
@@ -662,7 +662,7 @@ class CLIPTextTransformer(nn.Module):
        # take features from the eot embedding (eot_token is the highest number in each sequence)
        # casting to torch.int for onnx compatibility: argmax doesn't support int64 inputs with opset 14
        pooled_output = last_hidden_state[
-            torch.arange(last_hidden_state.shape[0]), input_ids.to(torch.int).argmax(dim=-1)
+            torch.arange(last_hidden_state.shape[0], device=input_ids.device), input_ids.to(torch.int).argmax(dim=-1)
        ]
        if not return_dict:

--- a/src/transformers/models/groupvit/modeling_groupvit.py
+++ b/src/transformers/models/groupvit/modeling_groupvit.py
@@ -1134,7 +1134,7 @@ class GroupViTTextTransformer(nn.Module):
        # take features from the eot embedding (eot_token is the highest number in each sequence)
        # casting to torch.int for onnx compatibility: argmax doesn't support int64 inputs with opset 14
        pooled_output = last_hidden_state[
-            torch.arange(last_hidden_state.shape[0]), input_ids.to(torch.int).argmax(dim=-1)
+            torch.arange(last_hidden_state.shape[0], device=input_ids.device), input_ids.to(torch.int).argmax(dim=-1)
        ]
        if not return_dict: