Use CLIP model config to set some kwargs for components (#16609)

* Use CLIP model's config for some fields (if specified) instead of those of vision & text components. Co-authored-by: ydshieh <ydshieh@users.noreply.github.com>

Use CLIP model config to set some kwargs for components (#16609)
* Use CLIP model's config for some fields (if specified) instead of those of vision & text components. Co-authored-by: ydshieh <ydshieh@users.noreply.github.com>
ae6a7a76 · Yih-Dar · GitHub · 47c5c059 · ae6a7a76
Unverified Commit ae6a7a76 authored Apr 06, 2022 by Yih-Dar Committed by GitHub Apr 06, 2022
Show whitespace changes
Inline Side-by-side

Showing with 21 additions and 1 deletion

src/transformers/models/clip/modeling_clip.py src/transformers/models/clip/modeling_clip.py +21 -1

No files found.
--- a/src/transformers/models/clip/modeling_clip.py
+++ b/src/transformers/models/clip/modeling_clip.py
@@ -898,6 +898,13 @@ class CLIPModel(CLIPPreTrainedModel):
        >>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")
        >>> text_features = model.get_text_features(**inputs)
        ```"""
+        # Use CLIP model's config for some fields (if specified) instead of those of vision & text components.
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
        text_outputs = self.text_model(
            input_ids=input_ids,
            attention_mask=attention_mask,
@@ -942,6 +949,13 @@ class CLIPModel(CLIPPreTrainedModel):

        >>> image_features = model.get_image_features(**inputs)
        ```"""
+        # Use CLIP model's config for some fields (if specified) instead of those of vision & text components.
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
        vision_outputs = self.vision_model(
            pixel_values=pixel_values,
            output_attentions=output_attentions,
@@ -991,7 +1005,13 @@ class CLIPModel(CLIPPreTrainedModel):
        >>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
        >>> probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities
        ```"""
-        return_dict = return_dict if return_dict is not None else self.config.return_dict
+        # Use CLIP model's config for some fields (if specified) instead of those of vision & text components.
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
        vision_outputs = self.vision_model(
            pixel_values=pixel_values,
            output_attentions=output_attentions,