[gptj] support older pytorch version (#22325)

* [gptj] support older pytorch version * contributor * contributor * make copies --------- Co-authored-by: Michael Wyatt <michaelwyatt@microsoft.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com>

[gptj] support older pytorch version (#22325)
* [gptj] support older pytorch version * contributor * contributor * make copies --------- Co-authored-by: Michael Wyatt <michaelwyatt@microsoft.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com>
61f79b29 · Stas Bekman · GitHub · 80e3b363 · 61f79b29 · 61f79b29
Unverified Commit 61f79b29 authored Mar 22, 2023 by Stas Bekman Committed by GitHub Mar 22, 2023
Showing with 3 additions and 2 deletions

src/transformers/models/codegen/modeling_codegen.py src/transformers/models/codegen/modeling_codegen.py +1 -1

src/transformers/models/gptj/modeling_gptj.py src/transformers/models/gptj/modeling_gptj.py +2 -1

No files found.
--- a/src/transformers/models/codegen/modeling_codegen.py
+++ b/src/transformers/models/codegen/modeling_codegen.py
@@ -55,7 +55,7 @@ CODEGEN_PRETRAINED_MODEL_ARCHIVE_LIST = [
 def create_sinusoidal_positions(num_pos: int, dim: int) -> torch.Tensor:
    inv_freq = 1.0 / (10000 ** (torch.arange(0, dim, 2) / dim))
    sinusoid_inp = torch.einsum("i , j -> i j", torch.arange(num_pos, dtype=torch.float), inv_freq).float()
-    return torch.concat((torch.sin(sinusoid_inp), torch.cos(sinusoid_inp)), dim=1)
+    return torch.cat((torch.sin(sinusoid_inp), torch.cos(sinusoid_inp)), dim=1)
 # Copied from transformers.models.gptj.modeling_gptj.rotate_every_two

--- a/src/transformers/models/gptj/modeling_gptj.py
+++ b/src/transformers/models/gptj/modeling_gptj.py
@@ -18,6 +18,7 @@ import warnings
 from typing import Optional, Tuple, Union
 import torch
+import torch.fx
 import torch.utils.checkpoint
 from torch import nn
 from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
@@ -57,7 +58,7 @@ GPTJ_PRETRAINED_MODEL_ARCHIVE_LIST = [
 def create_sinusoidal_positions(num_pos: int, dim: int) -> torch.Tensor:
    inv_freq = 1.0 / (10000 ** (torch.arange(0, dim, 2) / dim))
    sinusoid_inp = torch.einsum("i , j -> i j", torch.arange(num_pos, dtype=torch.float), inv_freq).float()
-    return torch.concat((torch.sin(sinusoid_inp), torch.cos(sinusoid_inp)), dim=1)
+    return torch.cat((torch.sin(sinusoid_inp), torch.cos(sinusoid_inp)), dim=1)
 @torch.fx.wrap