Accept batched tensor of images as input to image processor (#21144)

* Accept a batched tensor of images as input * Add to all image processors * Update oneformer

Accept batched tensor of images as input to image processor (#21144)
* Accept a batched tensor of images as input * Add to all image processors * Update oneformer
d18a1cba · amyeroberts · GitHub · 6f3faf38 · d18a1cba · d18a1cba
Unverified Commit d18a1cba authored Jan 26, 2023 by amyeroberts Committed by GitHub Jan 26, 2023
20 changed files
--- a/src/transformers/image_utils.py
+++ b/src/transformers/image_utils.py
@@ -91,6 +91,45 @@ def is_batched(img):
    return False
+def make_list_of_images(images, expected_ndims: int = 3) -> List[ImageInput]:
+    """
+    Ensure that the input is a list of images. If the input is a single image, it is converted to a list of length 1.
+    If the input is a batch of images, it is converted to a list of images.
+    Args:
+        images (`ImageInput`):
+            Image of images to turn into a list of images.
+        expected_ndims (`int`, *optional*, defaults to 3):
+            Expected number of dimensions for a single input image. If the input image has a different number of
+            dimensions, an error is raised.
+    """
+    if is_batched(images):
+        return images
+    # Either the input is a single image, in which case we create a list of length 1
+    if isinstance(images, PIL.Image.Image):
+        # PIL images are never batched
+        return [images]
+    if is_valid_image(images):
+        if images.ndim == expected_ndims + 1:
+            # Batch of images
+            images = [image for image in images]
+        elif images.ndim == expected_ndims:
+            # Single image
+            images = [images]
+        else:
+            raise ValueError(
+                f"Invalid image shape. Expected either {expected_ndims + 1} or {expected_ndims} dimensions, but got"
+                f" {images.ndim} dimensions."
+            )
+        return images
+    raise ValueError(
+        "Invalid image type. Expected either PIL.Image.Image, numpy.ndarray, torch.Tensor, tf.Tensor or "
+        f"jax.ndarray, but got {type(images)}."
+    )
 def to_numpy_array(img) -> np.ndarray:
    if not is_valid_image(img):
        raise ValueError(f"Invalid image type: {type(img)}")

--- a/src/transformers/models/beit/image_processing_beit.py
+++ b/src/transformers/models/beit/image_processing_beit.py
@@ -30,7 +30,7 @@ from ...image_utils import (
    ChannelDimension,
    ImageInput,
    PILImageResampling,
-    is_batched,
+    make_list_of_images,
    to_numpy_array,
    valid_images,
 )
@@ -438,9 +438,9 @@ class BeitImageProcessor(BaseImageProcessor):
        image_std = image_std if image_std is not None else self.image_std
        do_reduce_labels = do_reduce_labels if do_reduce_labels is not None else self.do_reduce_labels
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
+        if segmentation_maps is not None:
-            segmentation_maps = [segmentation_maps] if segmentation_maps is not None else None
+            segmentation_maps = make_list_of_images(segmentation_maps, expected_ndims=2)
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/bit/image_processing_bit.py
+++ b/src/transformers/models/bit/image_processing_bit.py
@@ -30,7 +30,14 @@ from ...image_transforms import (
    resize,
    to_channel_dimension_format,
 )
-from ...image_utils import ChannelDimension, ImageInput, PILImageResampling, is_batched, to_numpy_array, valid_images
+from ...image_utils import (
+    ChannelDimension,
+    ImageInput,
+    PILImageResampling,
+    make_list_of_images,
+    to_numpy_array,
+    valid_images,
+)
 from ...utils import logging
 from ...utils.import_utils import is_vision_available
@@ -286,8 +293,7 @@ class BitImageProcessor(BaseImageProcessor):
        image_std = image_std if image_std is not None else self.image_std
        do_convert_rgb = do_convert_rgb if do_convert_rgb is not None else self.do_convert_rgb
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/blip/image_processing_blip.py
+++ b/src/transformers/models/blip/image_processing_blip.py
@@ -29,7 +29,7 @@ from ...image_utils import (
    ChannelDimension,
    ImageInput,
    PILImageResampling,
-    is_batched,
+    make_list_of_images,
    to_numpy_array,
    valid_images,
 )
@@ -247,8 +247,7 @@ class BlipImageProcessor(BaseImageProcessor):
        size = size if size is not None else self.size
        size = get_size_dict(size, default_to_square=False)
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/chinese_clip/image_processing_chinese_clip.py
+++ b/src/transformers/models/chinese_clip/image_processing_chinese_clip.py
@@ -30,7 +30,14 @@ from ...image_transforms import (
    resize,
    to_channel_dimension_format,
 )
-from ...image_utils import ChannelDimension, ImageInput, PILImageResampling, is_batched, to_numpy_array, valid_images
+from ...image_utils import (
+    ChannelDimension,
+    ImageInput,
+    PILImageResampling,
+    make_list_of_images,
+    to_numpy_array,
+    valid_images,
+)
 from ...utils import logging
 from ...utils.import_utils import is_vision_available
@@ -284,8 +291,7 @@ class ChineseCLIPImageProcessor(BaseImageProcessor):
        image_std = image_std if image_std is not None else self.image_std
        do_convert_rgb = do_convert_rgb if do_convert_rgb is not None else self.do_convert_rgb
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/clip/image_processing_clip.py
+++ b/src/transformers/models/clip/image_processing_clip.py
@@ -30,7 +30,14 @@ from ...image_transforms import (
    resize,
    to_channel_dimension_format,
 )
-from ...image_utils import ChannelDimension, ImageInput, PILImageResampling, is_batched, to_numpy_array, valid_images
+from ...image_utils import (
+    ChannelDimension,
+    ImageInput,
+    PILImageResampling,
+    make_list_of_images,
+    to_numpy_array,
+    valid_images,
+)
 from ...utils import logging
 from ...utils.import_utils import is_vision_available
@@ -286,8 +293,7 @@ class CLIPImageProcessor(BaseImageProcessor):
        image_std = image_std if image_std is not None else self.image_std
        do_convert_rgb = do_convert_rgb if do_convert_rgb is not None else self.do_convert_rgb
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/conditional_detr/image_processing_conditional_detr.py
+++ b/src/transformers/models/conditional_detr/image_processing_conditional_detr.py
@@ -44,7 +44,7 @@ from transformers.image_utils import (
    PILImageResampling,
    get_image_size,
    infer_channel_dimension_format,
-    is_batched,
+    make_list_of_images,
    to_numpy_array,
    valid_coco_detection_annotations,
    valid_coco_panoptic_annotations,
@@ -1172,9 +1172,9 @@ class ConditionalDetrImageProcessor(BaseImageProcessor):
        if do_normalize is not None and (image_mean is None or image_std is None):
            raise ValueError("Image mean and std must be specified if do_normalize is True.")
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
+        if annotations is not None and isinstance(annotations[0], dict):
-            annotations = [annotations] if annotations is not None else None
+            annotations = [annotations]
        if annotations is not None and len(images) != len(annotations):
            raise ValueError(

--- a/src/transformers/models/convnext/image_processing_convnext.py
+++ b/src/transformers/models/convnext/image_processing_convnext.py
@@ -36,7 +36,7 @@ from ...image_utils import (
    ChannelDimension,
    ImageInput,
    PILImageResampling,
-    is_batched,
+    make_list_of_images,
    to_numpy_array,
    valid_images,
 )
@@ -272,8 +272,7 @@ class ConvNextImageProcessor(BaseImageProcessor):
        size = size if size is not None else self.size
        size = get_size_dict(size, default_to_square=False)
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/deformable_detr/image_processing_deformable_detr.py
+++ b/src/transformers/models/deformable_detr/image_processing_deformable_detr.py
@@ -44,7 +44,7 @@ from transformers.image_utils import (
    PILImageResampling,
    get_image_size,
    infer_channel_dimension_format,
-    is_batched,
+    make_list_of_images,
    to_numpy_array,
    valid_coco_detection_annotations,
    valid_coco_panoptic_annotations,
@@ -1170,9 +1170,9 @@ class DeformableDetrImageProcessor(BaseImageProcessor):
        if do_normalize is not None and (image_mean is None or image_std is None):
            raise ValueError("Image mean and std must be specified if do_normalize is True.")
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
+        if annotations is not None and isinstance(annotations[0], dict):
-            annotations = [annotations] if annotations is not None else None
+            annotations = [annotations]
        if annotations is not None and len(images) != len(annotations):
            raise ValueError(

--- a/src/transformers/models/deit/image_processing_deit.py
+++ b/src/transformers/models/deit/image_processing_deit.py
@@ -29,7 +29,7 @@ from ...image_utils import (
    ChannelDimension,
    ImageInput,
    PILImageResampling,
-    is_batched,
+    make_list_of_images,
    to_numpy_array,
    valid_images,
 )
@@ -276,8 +276,7 @@ class DeiTImageProcessor(BaseImageProcessor):
        crop_size = crop_size if crop_size is not None else self.crop_size
        crop_size = get_size_dict(crop_size, param_name="crop_size")
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/detr/image_processing_detr.py
+++ b/src/transformers/models/detr/image_processing_detr.py
@@ -43,7 +43,7 @@ from transformers.image_utils import (
    PILImageResampling,
    get_image_size,
    infer_channel_dimension_format,
-    is_batched,
+    make_list_of_images,
    to_numpy_array,
    valid_coco_detection_annotations,
    valid_coco_panoptic_annotations,
@@ -1138,9 +1138,9 @@ class DetrImageProcessor(BaseImageProcessor):
        if do_normalize is not None and (image_mean is None or image_std is None):
            raise ValueError("Image mean and std must be specified if do_normalize is True.")
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
+        if annotations is not None and isinstance(annotations[0], dict):
-            annotations = [annotations] if annotations is not None else None
+            annotations = [annotations]
        if annotations is not None and len(images) != len(annotations):
            raise ValueError(

--- a/src/transformers/models/donut/image_processing_donut.py
+++ b/src/transformers/models/donut/image_processing_donut.py
@@ -34,7 +34,7 @@ from ...image_utils import (
    ImageInput,
    PILImageResampling,
    get_image_size,
-    is_batched,
+    make_list_of_images,
    to_numpy_array,
    valid_images,
 )
@@ -396,8 +396,7 @@ class DonutImageProcessor(BaseImageProcessor):
        image_mean = image_mean if image_mean is not None else self.image_mean
        image_std = image_std if image_std is not None else self.image_std
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/dpt/image_processing_dpt.py
+++ b/src/transformers/models/dpt/image_processing_dpt.py
@@ -31,9 +31,9 @@ from ...image_utils import (
    ImageInput,
    PILImageResampling,
    get_image_size,
-    is_batched,
    is_torch_available,
    is_torch_tensor,
+    make_list_of_images,
    to_numpy_array,
    valid_images,
 )
@@ -308,8 +308,7 @@ class DPTImageProcessor(BaseImageProcessor):
        image_mean = image_mean if image_mean is not None else self.image_mean
        image_std = image_std if image_std is not None else self.image_std
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/flava/image_processing_flava.py
+++ b/src/transformers/models/flava/image_processing_flava.py
@@ -26,7 +26,14 @@ from transformers.utils.generic import TensorType
 from ...image_processing_utils import BaseImageProcessor, BatchFeature, get_size_dict
 from ...image_transforms import center_crop, normalize, rescale, resize, to_channel_dimension_format
-from ...image_utils import ChannelDimension, ImageInput, PILImageResampling, is_batched, to_numpy_array, valid_images
+from ...image_utils import (
+    ChannelDimension,
+    ImageInput,
+    PILImageResampling,
+    make_list_of_images,
+    to_numpy_array,
+    valid_images,
+)
 from ...utils import logging
@@ -647,8 +654,7 @@ class FlavaImageProcessor(BaseImageProcessor):
        codebook_image_mean = codebook_image_mean if codebook_image_mean is not None else self.codebook_image_mean
        codebook_image_std = codebook_image_std if codebook_image_std is not None else self.codebook_image_std
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/glpn/image_processing_glpn.py
+++ b/src/transformers/models/glpn/image_processing_glpn.py
@@ -24,7 +24,7 @@ from transformers.utils.generic import TensorType
 from ...image_processing_utils import BaseImageProcessor, BatchFeature
 from ...image_transforms import rescale, resize, to_channel_dimension_format
-from ...image_utils import ChannelDimension, get_image_size, is_batched, to_numpy_array, valid_images
+from ...image_utils import ChannelDimension, get_image_size, make_list_of_images, to_numpy_array, valid_images
 from ...utils import logging
@@ -166,8 +166,7 @@ class GLPNImageProcessor(BaseImageProcessor):
        if do_resize and size_divisor is None:
            raise ValueError("size_divisor is required for resizing")
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError("Invalid image(s)")

--- a/src/transformers/models/imagegpt/image_processing_imagegpt.py
+++ b/src/transformers/models/imagegpt/image_processing_imagegpt.py
@@ -23,7 +23,14 @@ from transformers.utils.generic import TensorType
 from ...image_processing_utils import BaseImageProcessor, BatchFeature, get_size_dict
 from ...image_transforms import rescale, resize, to_channel_dimension_format
-from ...image_utils import ChannelDimension, ImageInput, PILImageResampling, is_batched, to_numpy_array, valid_images
+from ...image_utils import (
+    ChannelDimension,
+    ImageInput,
+    PILImageResampling,
+    make_list_of_images,
+    to_numpy_array,
+    valid_images,
+)
 from ...utils import logging
@@ -196,8 +203,7 @@ class ImageGPTImageProcessor(BaseImageProcessor):
        do_color_quantize = do_color_quantize if do_color_quantize is not None else self.do_color_quantize
        clusters = clusters if clusters is not None else self.clusters
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/layoutlmv2/image_processing_layoutlmv2.py
+++ b/src/transformers/models/layoutlmv2/image_processing_layoutlmv2.py
@@ -28,7 +28,7 @@ from ...image_utils import (
    ImageInput,
    PILImageResampling,
    infer_channel_dimension_format,
-    is_batched,
+    make_list_of_images,
    to_numpy_array,
    valid_images,
 )
@@ -230,8 +230,7 @@ class LayoutLMv2ImageProcessor(BaseImageProcessor):
        ocr_lang = ocr_lang if ocr_lang is not None else self.ocr_lang
        tesseract_config = tesseract_config if tesseract_config is not None else self.tesseract_config
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/layoutlmv3/image_processing_layoutlmv3.py
+++ b/src/transformers/models/layoutlmv3/image_processing_layoutlmv3.py
@@ -30,7 +30,7 @@ from ...image_utils import (
    ImageInput,
    PILImageResampling,
    infer_channel_dimension_format,
-    is_batched,
+    make_list_of_images,
    to_numpy_array,
    valid_images,
 )
@@ -320,8 +320,7 @@ class LayoutLMv3ImageProcessor(BaseImageProcessor):
        ocr_lang = ocr_lang if ocr_lang is not None else self.ocr_lang
        tesseract_config = tesseract_config if tesseract_config is not None else self.tesseract_config
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/levit/image_processing_levit.py
+++ b/src/transformers/models/levit/image_processing_levit.py
@@ -35,7 +35,7 @@ from ...image_utils import (
    ChannelDimension,
    ImageInput,
    PILImageResampling,
-    is_batched,
+    make_list_of_images,
    to_numpy_array,
    valid_images,
 )
@@ -303,8 +303,7 @@ class LevitImageProcessor(BaseImageProcessor):
        crop_size = crop_size if crop_size is not None else self.crop_size
        crop_size = get_size_dict(crop_size, param_name="crop_size")
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
        if not valid_images(images):
            raise ValueError(

--- a/src/transformers/models/maskformer/image_processing_maskformer.py
+++ b/src/transformers/models/maskformer/image_processing_maskformer.py
@@ -37,7 +37,7 @@ from transformers.image_utils import (
    PILImageResampling,
    get_image_size,
    infer_channel_dimension_format,
-    is_batched,
+    make_list_of_images,
    valid_images,
 )
 from transformers.utils import (
@@ -717,9 +717,9 @@ class MaskFormerImageProcessor(BaseImageProcessor):
                "torch.Tensor, tf.Tensor or jax.ndarray."
            )
-        if not is_batched(images):
+        images = make_list_of_images(images)
-            images = [images]
+        if segmentation_maps is not None:
-            segmentation_maps = [segmentation_maps] if segmentation_maps is not None else None
+            segmentation_maps = make_list_of_images(segmentation_maps, expected_ndims=2)
        if segmentation_maps is not None and len(images) != len(segmentation_maps):
            raise ValueError("Images and segmentation maps must have the same length.")