Use `config.num_channels` in CLIP-like modeling files (#20857)

Use config.num_channels in CLIP-like modeling files Co-authored-by: ydshieh <ydshieh@users.noreply.github.com>

Use `config.num_channels` in CLIP-like modeling files (#20857)
Use config.num_channels in CLIP-like modeling files Co-authored-by: ydshieh <ydshieh@users.noreply.github.com>
852e7eba · Yih-Dar · GitHub · d87e381f · 852e7eba · 852e7eba
Unverified Commit 852e7eba authored Dec 21, 2022 by Yih-Dar Committed by GitHub Dec 21, 2022
4 changed files
--- a/src/transformers/models/chinese_clip/modeling_chinese_clip.py
+++ b/src/transformers/models/chinese_clip/modeling_chinese_clip.py
@@ -181,7 +181,11 @@ class ChineseCLIPVisionEmbeddings(nn.Module):
        self.class_embedding = nn.Parameter(torch.randn(self.embed_dim))
        self.patch_embedding = nn.Conv2d(
-            in_channels=3, out_channels=self.embed_dim, kernel_size=self.patch_size, stride=self.patch_size, bias=False
+            in_channels=config.num_channels,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+            bias=False,
        )
        self.num_patches = (self.image_size // self.patch_size) ** 2

--- a/src/transformers/models/clip/modeling_clip.py
+++ b/src/transformers/models/clip/modeling_clip.py
@@ -178,7 +178,11 @@ class CLIPVisionEmbeddings(nn.Module):
        self.class_embedding = nn.Parameter(torch.randn(self.embed_dim))
        self.patch_embedding = nn.Conv2d(
-            in_channels=3, out_channels=self.embed_dim, kernel_size=self.patch_size, stride=self.patch_size, bias=False
+            in_channels=config.num_channels,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+            bias=False,
        )
        self.num_patches = (self.image_size // self.patch_size) ** 2

--- a/src/transformers/models/clipseg/modeling_clipseg.py
+++ b/src/transformers/models/clipseg/modeling_clipseg.py
@@ -171,7 +171,11 @@ class CLIPSegVisionEmbeddings(nn.Module):
        self.class_embedding = nn.Parameter(torch.randn(self.embed_dim))
        self.patch_embedding = nn.Conv2d(
-            in_channels=3, out_channels=self.embed_dim, kernel_size=self.patch_size, stride=self.patch_size, bias=False
+            in_channels=config.num_channels,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+            bias=False,
        )
        self.num_patches = (self.image_size // self.patch_size) ** 2

--- a/src/transformers/models/x_clip/modeling_x_clip.py
+++ b/src/transformers/models/x_clip/modeling_x_clip.py
@@ -129,7 +129,11 @@ class XCLIPVisionEmbeddings(nn.Module):
        self.class_embedding = nn.Parameter(torch.randn(self.embed_dim))
        self.patch_embedding = nn.Conv2d(
-            in_channels=3, out_channels=self.embed_dim, kernel_size=self.patch_size, stride=self.patch_size, bias=False
+            in_channels=config.num_channels,
+            out_channels=self.embed_dim,
+            kernel_size=self.patch_size,
+            stride=self.patch_size,
+            bias=False,
        )
        self.num_patches = (self.image_size // self.patch_size) ** 2