Internal change

PiperOrigin-RevId: 354434423

Internal change
PiperOrigin-RevId: 354434423
d5a8f2a8 · Yeqing Li · A. Unique TensorFlower · 0d6ce602 · d5a8f2a8 · d5a8f2a8
Commit d5a8f2a8 authored Jan 28, 2021 by Yeqing Li Committed by A. Unique TensorFlower Jan 28, 2021
8 changed files
--- a/official/core/input_reader.py
+++ b/official/core/input_reader.py
@@ -174,7 +174,8 @@ class InputReader:
        map_func=self._dataset_fn,
        cycle_length=self._cycle_length,
        block_length=self._block_length,
-        num_parallel_calls=tf.data.experimental.AUTOTUNE,
+        num_parallel_calls=(self._cycle_length if self._cycle_length else
+                            tf.data.experimental.AUTOTUNE),
        deterministic=self._deterministic)
    return dataset


--- a/official/vision/beta/configs/experiments/video_classification/k400_3d-resnet50_tpu.yaml
+++ b/official/vision/beta/configs/experiments/video_classification/k400_3d-resnet50_tpu.yaml
@@ -56,6 +56,10 @@ task:
    global_batch_size: 1024
    dtype: 'bfloat16'
    shuffle_buffer_size: 1024
+    aug_max_area_ratio: 1.0
+    aug_max_aspect_ratio: 2.0
+    aug_min_area_ratio: 0.08
+    aug_min_aspect_ratio: 0.5
  validation_data:
    name: kinetics400
    feature_shape: !!python/tuple

--- a/official/vision/beta/configs/experiments/video_classification/k400_slowonly16x4_tpu.yaml
+++ b/official/vision/beta/configs/experiments/video_classification/k400_slowonly16x4_tpu.yaml
@@ -56,6 +56,10 @@ task:
    global_batch_size: 1024
    dtype: 'bfloat16'
    shuffle_buffer_size: 1024
+    aug_max_area_ratio: 1.0
+    aug_max_aspect_ratio: 2.0
+    aug_min_area_ratio: 0.08
+    aug_min_aspect_ratio: 0.5
  validation_data:
    name: kinetics400
    feature_shape: !!python/tuple

--- a/official/vision/beta/configs/experiments/video_classification/k400_slowonly8x8_tpu.yaml
+++ b/official/vision/beta/configs/experiments/video_classification/k400_slowonly8x8_tpu.yaml
@@ -56,6 +56,10 @@ task:
    global_batch_size: 1024
    dtype: 'bfloat16'
    shuffle_buffer_size: 1024
+    aug_max_area_ratio: 1.0
+    aug_max_aspect_ratio: 2.0
+    aug_min_area_ratio: 0.08
+    aug_min_aspect_ratio: 0.5
  validation_data:
    name: kinetics400
    feature_shape: !!python/tuple

--- a/official/vision/beta/configs/experiments/video_classification/k600_3d-resnet50_tpu.yaml
+++ b/official/vision/beta/configs/experiments/video_classification/k600_3d-resnet50_tpu.yaml
@@ -56,6 +56,10 @@ task:
    global_batch_size: 1024
    dtype: 'bfloat16'
    shuffle_buffer_size: 1024
+    aug_max_area_ratio: 1.0
+    aug_max_aspect_ratio: 2.0
+    aug_min_area_ratio: 0.08
+    aug_min_aspect_ratio: 0.5
  validation_data:
    name: kinetics600
    feature_shape: !!python/tuple

--- a/official/vision/beta/configs/experiments/video_classification/k600_slowonly8x8_tpu.yaml
+++ b/official/vision/beta/configs/experiments/video_classification/k600_slowonly8x8_tpu.yaml
@@ -56,6 +56,10 @@ task:
    global_batch_size: 1024
    dtype: 'bfloat16'
    shuffle_buffer_size: 1024
+    aug_max_area_ratio: 1.0
+    aug_max_aspect_ratio: 2.0
+    aug_min_area_ratio: 0.08
+    aug_min_aspect_ratio: 0.5
  validation_data:
    name: kinetics600
    feature_shape: !!python/tuple

--- a/official/vision/beta/configs/video_classification.py
+++ b/official/vision/beta/configs/video_classification.py
@@ -54,6 +54,10 @@ class DataConfig(cfg.DataConfig):
  output_audio: bool = False
  audio_feature: str = ''
  audio_feature_shape: Tuple[int, ...] = (-1,)
+  aug_min_aspect_ratio: float = 0.5
+  aug_max_aspect_ratio: float = 2.0
+  aug_min_area_ratio: float = 0.49
+  aug_max_area_ratio: float = 1.0


 def kinetics400(is_training):

--- a/official/vision/beta/dataloaders/video_input.py
+++ b/official/vision/beta/dataloaders/video_input.py
@@ -38,6 +38,10 @@ def _process_image(image: tf.Tensor,
                   crop_size: int = 224,
                   num_crops: int = 1,
                   zero_centering_image: bool = False,
+                   min_aspect_ratio: float = 0.5,
+                   max_aspect_ratio: float = 2,
+                   min_area_ratio: float = 0.49,
+                   max_area_ratio: float = 1.0,
                   seed: Optional[int] = None) -> tf.Tensor:
  """Processes a serialized image tensor.

@@ -58,6 +62,10 @@ def _process_image(image: tf.Tensor,
    num_crops: Number of crops to perform on the resized frames.
    zero_centering_image: If True, frames are normalized to values in [-1, 1].
      If False, values in [0, 1].
+    min_aspect_ratio: The minimum aspect range for cropping.
+    max_aspect_ratio: The maximum aspect range for cropping.
+    min_area_ratio: The minimum area range for cropping.
+    max_area_ratio: The maximum area range for cropping.
    seed: A deterministic seed to use when sampling.

  Returns:
@@ -89,7 +97,9 @@ def _process_image(image: tf.Tensor,
  if is_training:
    # Standard image data augmentation: random resized crop and random flip.
    image = preprocess_ops_3d.random_crop_resize(
-        image, crop_size, crop_size, num_frames, 3, (0.5, 2), (0.08, 1))
+        image, crop_size, crop_size, num_frames, 3,
+        (min_aspect_ratio, max_aspect_ratio),
+        (min_area_ratio, max_area_ratio))
    image = preprocess_ops_3d.random_flip_left_right(image, seed)
  else:
    # Resize images (resize happens only if necessary to save compute).
@@ -221,6 +231,10 @@ class Parser(parser.Parser):
    self._label_key = label_key
    self._dtype = tf.dtypes.as_dtype(input_params.dtype)
    self._output_audio = input_params.output_audio
+    self._min_aspect_ratio = input_params.aug_min_aspect_ratio
+    self._max_aspect_ratio = input_params.aug_max_aspect_ratio
+    self._min_area_ratio = input_params.aug_min_area_ratio
+    self._max_area_ratio = input_params.aug_max_area_ratio
    if self._output_audio:
      self._audio_feature = input_params.audio_feature
      self._audio_shape = input_params.audio_feature_shape
@@ -238,7 +252,11 @@ class Parser(parser.Parser):
        stride=self._stride,
        num_test_clips=self._num_test_clips,
        min_resize=self._min_resize,
-        crop_size=self._crop_size)
+        crop_size=self._crop_size,
+        min_aspect_ratio=self._min_aspect_ratio,
+        max_aspect_ratio=self._max_aspect_ratio,
+        min_area_ratio=self._min_area_ratio,
+        max_area_ratio=self._max_area_ratio)
    image = tf.cast(image, dtype=self._dtype)
    features = {'image': image}