Fix doctests for TFVisionTextDualEncoder (#21910)

37e0974a · Matt · GitHub · 9f5bfe1b · 37e0974a
Unverified Commit 37e0974a authored Mar 03, 2023 by Matt Committed by GitHub Mar 03, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 6 additions and 4 deletions

src/transformers/models/vision_text_dual_encoder/modeling_tf_vision_text_dual_encoder.py ...text_dual_encoder/modeling_tf_vision_text_dual_encoder.py +6 -4

No files found.
--- a/src/transformers/models/vision_text_dual_encoder/modeling_tf_vision_text_dual_encoder.py
+++ b/src/transformers/models/vision_text_dual_encoder/modeling_tf_vision_text_dual_encoder.py
@@ -272,10 +272,10 @@ class TFVisionTextDualEncoderModel(TFPreTrainedModel):
        ```python
        >>> from transformers import TFVisionTextDualEncoderModel, AutoTokenizer
-        >>> model = TFVisionTextDualEncoderModel.from_pretrained("clip-italian/clip-italian")
+        >>> model = TFVisionTextDualEncoderModel.from_pretrained("clip-italian/clip-italian", from_pt=True)
        >>> tokenizer = AutoTokenizer.from_pretrained("clip-italian/clip-italian")
-        >>> inputs = tokenizer(["una foto di un gatto", "una foto di un cane"], padding=True, return_tensors="pt")
+        >>> inputs = tokenizer(["una foto di un gatto", "una foto di un cane"], padding=True, return_tensors="np")
        >>> text_features = model.get_text_features(**inputs)
        ```"""
        text_outputs = self.text_model(
@@ -313,7 +313,7 @@ class TFVisionTextDualEncoderModel(TFPreTrainedModel):
        >>> import requests
        >>> from transformers import TFVisionTextDualEncoderModel, AutoImageProcessor
-        >>> model = VisionTextDualEncoderModel.from_pretrained("clip-italian/clip-italian")
+        >>> model = TFVisionTextDualEncoderModel.from_pretrained("clip-italian/clip-italian", from_pt=True)
        >>> image_processor = AutoImageProcessor.from_pretrained("google/vit-base-patch16-224")
        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
@@ -380,7 +380,7 @@ class TFVisionTextDualEncoderModel(TFPreTrainedModel):
        ... ]
        >>> images = [Image.open(requests.get(url, stream=True).raw) for url in urls]
        >>> inputs = processor(
-        ...     text=["a photo of a cat", "a photo of a dog"], images=images, return_tensors="pt", padding=True
+        ...     text=["a photo of a cat", "a photo of a dog"], images=images, return_tensors="np", padding=True
        ... )
        >>> outputs = model(
        ...     input_ids=inputs.input_ids,
@@ -587,6 +587,8 @@ class TFVisionTextDualEncoderModel(TFPreTrainedModel):
        if text_model.name != "text_model":
            raise ValueError("text model must be created with the name `text_model`.")
+        model(model.dummy_inputs)  # Ensure model is fully built
        return model
    @property