clean up deit configs

c0e1e3f9 · Simon Geisler · 40cd0a26 · c0e1e3f9
Commit c0e1e3f9 authored Aug 17, 2021 by Simon Geisler
Hide whitespace changes
Inline Side-by-side

Showing with 6 additions and 763 deletions

official/vision/beta/projects/vit/configs/image_classification.py .../vision/beta/projects/vit/configs/image_classification.py +6 -763

No files found.
--- a/official/vision/beta/projects/vit/configs/image_classification.py
+++ b/official/vision/beta/projects/vit/configs/image_classification.py
@@ -81,630 +81,14 @@ task_factory.register_task_cls(ImageClassificationTask)(
    image_classification.ImageClassificationTask)
-@exp_factory.register_config_factory('deit_imagenet_pretrain_noaug')
+@exp_factory.register_config_factory('deit_imagenet_pretrain_nodistillation')
-def image_classification_imagenet_deit_imagenet_pretrain_noaug() -> cfg.ExperimentConfig:
+def image_classification_imagenet_deit_pretrain() -> cfg.ExperimentConfig:
  """Image classification on imagenet with vision transformer."""
-  train_batch_size = 4096  # 1024
+  train_batch_size = 4096  # originally was 1024 but 4096 better for tpu v3-32
-  eval_batch_size = 4096  # 1024
+  eval_batch_size = 4096  # originally was 1024 but 4096 better for tpu v3-32
-  repeated_aug = 1
-  steps_per_epoch = IMAGENET_TRAIN_EXAMPLES * repeated_aug // train_batch_size
-  config = cfg.ExperimentConfig(
-      task=ImageClassificationTask(
-          model=ImageClassificationModel(
-              num_classes=1001,
-              input_size=[224, 224, 3],
-              kernel_initializer='zeros',
-              backbone=backbones.Backbone(
-                  type='vit',
-                  vit=backbones.VisionTransformer(
-                      model_name='vit-b16',
-                      representation_size=768,
-                      init_stochastic_depth_rate=0,
-                      original_init=False,
-                      transformer=backbones.Transformer(
-                          dropout_rate=0.0, attention_dropout_rate=0.0)))),
-          losses=Losses(l2_weight_decay=0.0, label_smoothing=0.1),
-          train_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'train*'),
-              is_training=True,
-              global_batch_size=train_batch_size,
-              # repeated_aug=repeated_aug,
-              color_jitter=0.4),
-          validation_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'valid*'),
-              is_training=False,
-              global_batch_size=eval_batch_size)),
-      trainer=cfg.TrainerConfig(
-          steps_per_loop=steps_per_epoch,
-          summary_interval=steps_per_epoch,
-          checkpoint_interval=steps_per_epoch,
-          train_steps=300 * steps_per_epoch,
-          validation_steps=IMAGENET_VAL_EXAMPLES // eval_batch_size,
-          validation_interval=steps_per_epoch,
-          optimizer_config=optimization.OptimizationConfig({
-              'optimizer': {
-                  'type': 'adamw',
-                  'adamw': {
-                      'weight_decay_rate': 0.05,
-                      'include_in_weight_decay': r'.*(kernel|weight):0$',
-                      'gradient_clip_norm': 0.0}
-              },
-              'learning_rate': {
-                  'type': 'cosine',
-                  'cosine': {
-                      'initial_learning_rate': 0.0005 * train_batch_size / 512,
-                      'decay_steps': 300 * steps_per_epoch,
-                  }
-              },
-              'warmup': {
-                  'type': 'linear',
-                  'linear': {
-                      'warmup_steps': 5 * steps_per_epoch,
-                      'warmup_learning_rate': 0
-                  }
-              }
-          })),
-      restrictions=[
-          'task.train_data.is_training != None',
-          'task.validation_data.is_training != None'
-      ])
-  return config
-@exp_factory.register_config_factory('deit_imagenet_pretrain_noaug_sd')
-def image_classification_imagenet_deit_imagenet_pretrain_noaug_sd() -> cfg.ExperimentConfig:
-  """Image classification on imagenet with vision transformer."""
-  train_batch_size = 4096  # 1024
-  eval_batch_size = 4096  # 1024
-  repeated_aug = 1
-  steps_per_epoch = IMAGENET_TRAIN_EXAMPLES * repeated_aug // train_batch_size
-  config = cfg.ExperimentConfig(
-      task=ImageClassificationTask(
-          model=ImageClassificationModel(
-              num_classes=1001,
-              input_size=[224, 224, 3],
-              kernel_initializer='zeros',
-              backbone=backbones.Backbone(
-                  type='vit',
-                  vit=backbones.VisionTransformer(
-                      model_name='vit-b16',
-                      representation_size=768,
-                      init_stochastic_depth_rate=0.1,
-                      original_init=False,
-                      transformer=backbones.Transformer(
-                          dropout_rate=0.0, attention_dropout_rate=0.0)))),
-          losses=Losses(l2_weight_decay=0.0, label_smoothing=0.1),
-          train_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'train*'),
-              is_training=True,
-              global_batch_size=train_batch_size,
-              # repeated_aug=repeated_aug,
-              color_jitter=0.4),
-          validation_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'valid*'),
-              is_training=False,
-              global_batch_size=eval_batch_size)),
-      trainer=cfg.TrainerConfig(
-          steps_per_loop=steps_per_epoch,
-          summary_interval=steps_per_epoch,
-          checkpoint_interval=steps_per_epoch,
-          train_steps=300 * steps_per_epoch,
-          validation_steps=IMAGENET_VAL_EXAMPLES // eval_batch_size,
-          validation_interval=steps_per_epoch,
-          optimizer_config=optimization.OptimizationConfig({
-              'optimizer': {
-                  'type': 'adamw',
-                  'adamw': {
-                      'weight_decay_rate': 0.05,
-                      'include_in_weight_decay': r'.*(kernel|weight):0$',
-                      'gradient_clip_norm': 0.0}
-              },
-              'learning_rate': {
-                  'type': 'cosine',
-                  'cosine': {
-                      'initial_learning_rate': 0.0005 * train_batch_size / 512,
-                      'decay_steps': 300 * steps_per_epoch,
-                  }
-              },
-              'warmup': {
-                  'type': 'linear',
-                  'linear': {
-                      'warmup_steps': 5 * steps_per_epoch,
-                      'warmup_learning_rate': 0
-                  }
-              }
-          })),
-      restrictions=[
-          'task.train_data.is_training != None',
-          'task.validation_data.is_training != None'
-      ])
-  return config
-@exp_factory.register_config_factory('deit_imagenet_pretrain_sd_mixupandcutmix')
-def image_classification_imagenet_deit_imagenet_pretrain_sd_mixupandcutmix() -> cfg.ExperimentConfig:
-  """Image classification on imagenet with vision transformer."""
-  train_batch_size = 4096  # 1024
-  eval_batch_size = 4096  # 1024
-  repeated_aug = 1
-  num_classes = 1001
-  label_smoothing = 0.1
-  steps_per_epoch = IMAGENET_TRAIN_EXAMPLES * repeated_aug // train_batch_size
-  config = cfg.ExperimentConfig(
-      task=ImageClassificationTask(
-          model=ImageClassificationModel(
-              num_classes=num_classes,
-              input_size=[224, 224, 3],
-              kernel_initializer='zeros',
-              backbone=backbones.Backbone(
-                  type='vit',
-                  vit=backbones.VisionTransformer(
-                      model_name='vit-b16',
-                      representation_size=768,
-                      init_stochastic_depth_rate=0.1,
-                      original_init=False,
-                      transformer=backbones.Transformer(
-                          dropout_rate=0.0, attention_dropout_rate=0.0)))),
-          losses=Losses(l2_weight_decay=0.0, label_smoothing=label_smoothing,
-                        one_hot=False, soft_labels=True),
-          train_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'train*'),
-              is_training=True,
-              global_batch_size=train_batch_size,
-              # repeated_aug=repeated_aug,
-              color_jitter=0.4,
-              mixup_and_cutmix=common.MixupAndCutmix(
-                  num_classes=num_classes,
-                  label_smoothing=label_smoothing
-              )),
-          validation_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'valid*'),
-              is_training=False,
-              global_batch_size=eval_batch_size)),
-      trainer=cfg.TrainerConfig(
-          steps_per_loop=steps_per_epoch,
-          summary_interval=steps_per_epoch,
-          checkpoint_interval=steps_per_epoch,
-          train_steps=300 * steps_per_epoch,
-          validation_steps=IMAGENET_VAL_EXAMPLES // eval_batch_size,
-          validation_interval=steps_per_epoch,
-          optimizer_config=optimization.OptimizationConfig({
-              'optimizer': {
-                  'type': 'adamw',
-                  'adamw': {
-                      'weight_decay_rate': 0.05,
-                      'include_in_weight_decay': r'.*(kernel|weight):0$',
-                      'gradient_clip_norm': 0.0}
-              },
-              'learning_rate': {
-                  'type': 'cosine',
-                  'cosine': {
-                      'initial_learning_rate': 0.0005 * train_batch_size / 512,
-                      'decay_steps': 300 * steps_per_epoch,
-                  }
-              },
-              'warmup': {
-                  'type': 'linear',
-                  'linear': {
-                      'warmup_steps': 5 * steps_per_epoch,
-                      'warmup_learning_rate': 0
-                  }
-              }
-          })),
-      restrictions=[
-          'task.train_data.is_training != None',
-          'task.validation_data.is_training != None'
-      ])
-  return config
-@exp_factory.register_config_factory('deit_imagenet_pretrain_sd_erase')
-def image_classification_imagenet_deit_imagenet_pretrain_sd_erase() -> cfg.ExperimentConfig:
-  """Image classification on imagenet with vision transformer."""
-  train_batch_size = 4096  # 1024
-  eval_batch_size = 4096  # 1024
-  repeated_aug = 1
-  steps_per_epoch = IMAGENET_TRAIN_EXAMPLES * repeated_aug // train_batch_size
-  config = cfg.ExperimentConfig(
-      task=ImageClassificationTask(
-          model=ImageClassificationModel(
-              num_classes=1001,
-              input_size=[224, 224, 3],
-              kernel_initializer='zeros',
-              backbone=backbones.Backbone(
-                  type='vit',
-                  vit=backbones.VisionTransformer(
-                      model_name='vit-b16',
-                      representation_size=768,
-                      init_stochastic_depth_rate=0.1,
-                      original_init=False,
-                      transformer=backbones.Transformer(
-                          dropout_rate=0.0, attention_dropout_rate=0.0)))),
-          losses=Losses(l2_weight_decay=0.0, label_smoothing=0.1),
-          train_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'train*'),
-              is_training=True,
-              global_batch_size=train_batch_size,
-              # repeated_aug=repeated_aug,
-              color_jitter=0.4,
-              random_erasing=common.RandomErasing()),
-          validation_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'valid*'),
-              is_training=False,
-              global_batch_size=eval_batch_size)),
-      trainer=cfg.TrainerConfig(
-          steps_per_loop=steps_per_epoch,
-          summary_interval=steps_per_epoch,
-          checkpoint_interval=steps_per_epoch,
-          train_steps=300 * steps_per_epoch,
-          validation_steps=IMAGENET_VAL_EXAMPLES // eval_batch_size,
-          validation_interval=steps_per_epoch,
-          optimizer_config=optimization.OptimizationConfig({
-              'optimizer': {
-                  'type': 'adamw',
-                  'adamw': {
-                      'weight_decay_rate': 0.05,
-                      'include_in_weight_decay': r'.*(kernel|weight):0$',
-                      'gradient_clip_norm': 0.0}
-              },
-              'learning_rate': {
-                  'type': 'cosine',
-                  'cosine': {
-                      'initial_learning_rate': 0.0005 * train_batch_size / 512,
-                      'decay_steps': 300 * steps_per_epoch,
-                  }
-              },
-              'warmup': {
-                  'type': 'linear',
-                  'linear': {
-                      'warmup_steps': 5 * steps_per_epoch,
-                      'warmup_learning_rate': 0
-                  }
-              }
-          })),
-      restrictions=[
-          'task.train_data.is_training != None',
-          'task.validation_data.is_training != None'
-      ])
-  return config
-@exp_factory.register_config_factory('deit_imagenet_pretrain_sd_erase_randa')
-def image_classification_imagenet_deit_imagenet_pretrain_sd_erase_randa() -> cfg.ExperimentConfig:
-  """Image classification on imagenet with vision transformer."""
-  train_batch_size = 4096  # 1024
-  eval_batch_size = 4096  # 1024
-  repeated_aug = 1
-  steps_per_epoch = IMAGENET_TRAIN_EXAMPLES * repeated_aug // train_batch_size
-  config = cfg.ExperimentConfig(
-      task=ImageClassificationTask(
-          model=ImageClassificationModel(
-              num_classes=1001,
-              input_size=[224, 224, 3],
-              kernel_initializer='zeros',
-              backbone=backbones.Backbone(
-                  type='vit',
-                  vit=backbones.VisionTransformer(
-                      model_name='vit-b16',
-                      representation_size=768,
-                      init_stochastic_depth_rate=0.1,
-                      original_init=False,
-                      transformer=backbones.Transformer(
-                          dropout_rate=0.0, attention_dropout_rate=0.0)))),
-          losses=Losses(l2_weight_decay=0.0, label_smoothing=0.1),
-          train_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'train*'),
-              is_training=True,
-              global_batch_size=train_batch_size,
-              # repeated_aug=repeated_aug,
-              color_jitter=0.4,
-              random_erasing=common.RandomErasing(),
-              aug_type=common.Augmentation(
-                  type='randaug', randaug=common.RandAugment(
-                      magnitude=9, exclude_ops=['Cutout']))),
-          validation_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'valid*'),
-              is_training=False,
-              global_batch_size=eval_batch_size)),
-      trainer=cfg.TrainerConfig(
-          steps_per_loop=steps_per_epoch,
-          summary_interval=steps_per_epoch,
-          checkpoint_interval=steps_per_epoch,
-          train_steps=300 * steps_per_epoch,
-          validation_steps=IMAGENET_VAL_EXAMPLES // eval_batch_size,
-          validation_interval=steps_per_epoch,
-          optimizer_config=optimization.OptimizationConfig({
-              'optimizer': {
-                  'type': 'adamw',
-                  'adamw': {
-                      'weight_decay_rate': 0.05,
-                      'include_in_weight_decay': r'.*(kernel|weight):0$',
-                      'gradient_clip_norm': 0.0}
-              },
-              'learning_rate': {
-                  'type': 'cosine',
-                  'cosine': {
-                      'initial_learning_rate': 0.0005 * train_batch_size / 512,
-                      'decay_steps': 300 * steps_per_epoch,
-                  }
-              },
-              'warmup': {
-                  'type': 'linear',
-                  'linear': {
-                      'warmup_steps': 5 * steps_per_epoch,
-                      'warmup_learning_rate': 0
-                  }
-              }
-          })),
-      restrictions=[
-          'task.train_data.is_training != None',
-          'task.validation_data.is_training != None'
-      ])
-  return config
-@exp_factory.register_config_factory('deit_imagenet_pretrain_sd_erase_randa_mixupandcutmix')
-def image_classification_imagenet_deit_imagenet_pretrain_sd_erase_randa_mixupandcutmix() -> cfg.ExperimentConfig:
-  """Image classification on imagenet with vision transformer."""
-  train_batch_size = 4096  # 1024
-  eval_batch_size = 4096  # 1024
-  repeated_aug = 1
-  num_classes = 1001
-  label_smoothing = 0.1
-  steps_per_epoch = IMAGENET_TRAIN_EXAMPLES * repeated_aug // train_batch_size
-  config = cfg.ExperimentConfig(
-      task=ImageClassificationTask(
-          model=ImageClassificationModel(
-              num_classes=num_classes,
-              input_size=[224, 224, 3],
-              kernel_initializer='zeros',
-              backbone=backbones.Backbone(
-                  type='vit',
-                  vit=backbones.VisionTransformer(
-                      model_name='vit-b16',
-                      representation_size=768,
-                      init_stochastic_depth_rate=0.1,
-                      original_init=False,
-                      transformer=backbones.Transformer(
-                          dropout_rate=0.0, attention_dropout_rate=0.0)))),
-          losses=Losses(l2_weight_decay=0.0, label_smoothing=label_smoothing,
-                        one_hot=False, soft_labels=True),
-          train_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'train*'),
-              is_training=True,
-              global_batch_size=train_batch_size,
-              # repeated_aug=repeated_aug,
-              color_jitter=0.4,
-              random_erasing=common.RandomErasing(),
-              aug_type=common.Augmentation(
-                  type='randaug', randaug=common.RandAugment(
-                      magnitude=9, exclude_ops=['Cutout'])),
-              mixup_and_cutmix=common.MixupAndCutmix(
-                  num_classes=num_classes,
-                  label_smoothing=label_smoothing
-              )),
-          validation_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'valid*'),
-              is_training=False,
-              global_batch_size=eval_batch_size)),
-      trainer=cfg.TrainerConfig(
-          steps_per_loop=steps_per_epoch,
-          summary_interval=steps_per_epoch,
-          checkpoint_interval=steps_per_epoch,
-          train_steps=300 * steps_per_epoch,
-          validation_steps=IMAGENET_VAL_EXAMPLES // eval_batch_size,
-          validation_interval=steps_per_epoch,
-          optimizer_config=optimization.OptimizationConfig({
-              'optimizer': {
-                  'type': 'adamw',
-                  'adamw': {
-                      'weight_decay_rate': 0.05,
-                      'include_in_weight_decay': r'.*(kernel|weight):0$',
-                      'gradient_clip_norm': 0.0}
-              },
-              'learning_rate': {
-                  'type': 'cosine',
-                  'cosine': {
-                      'initial_learning_rate': 0.0005 * train_batch_size / 512,
-                      'decay_steps': 300 * steps_per_epoch,
-                  }
-              },
-              'warmup': {
-                  'type': 'linear',
-                  'linear': {
-                      'warmup_steps': 5 * steps_per_epoch,
-                      'warmup_learning_rate': 0
-                  }
-              }
-          })),
-      restrictions=[
-          'task.train_data.is_training != None',
-          'task.validation_data.is_training != None'
-      ])
-  return config
-@exp_factory.register_config_factory('deit_imagenet_pretrain_sd_erase_randa_mixup')
-def image_classification_imagenet_deit_imagenet_pretrain_sd_erase_randa_mixup() -> cfg.ExperimentConfig:
-  """Image classification on imagenet with vision transformer."""
-  train_batch_size = 4096  # 1024
-  eval_batch_size = 4096  # 1024
-  repeated_aug = 1
-  num_classes = 1001
-  label_smoothing = 0.1
-  steps_per_epoch = IMAGENET_TRAIN_EXAMPLES * repeated_aug // train_batch_size
-  config = cfg.ExperimentConfig(
-      task=ImageClassificationTask(
-          model=ImageClassificationModel(
-              num_classes=num_classes,
-              input_size=[224, 224, 3],
-              kernel_initializer='zeros',
-              backbone=backbones.Backbone(
-                  type='vit',
-                  vit=backbones.VisionTransformer(
-                      model_name='vit-b16',
-                      representation_size=768,
-                      init_stochastic_depth_rate=0.1,
-                      original_init=False,
-                      transformer=backbones.Transformer(
-                          dropout_rate=0.0, attention_dropout_rate=0.0)))),
-          losses=Losses(l2_weight_decay=0.0, label_smoothing=label_smoothing,
-                        one_hot=False, soft_labels=True),
-          train_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'train*'),
-              is_training=True,
-              global_batch_size=train_batch_size,
-              # repeated_aug=repeated_aug,
-              color_jitter=0.4,
-              random_erasing=common.RandomErasing(),
-              aug_type=common.Augmentation(
-                  type='randaug', randaug=common.RandAugment(
-                      magnitude=9, exclude_ops=['Cutout'])),
-              mixup_and_cutmix=common.MixupAndCutmix(
-                  num_classes=num_classes,
-                  label_smoothing=label_smoothing,
-                  cutmix_alpha=0
-              )),
-          validation_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'valid*'),
-              is_training=False,
-              global_batch_size=eval_batch_size)),
-      trainer=cfg.TrainerConfig(
-          steps_per_loop=steps_per_epoch,
-          summary_interval=steps_per_epoch,
-          checkpoint_interval=steps_per_epoch,
-          train_steps=300 * steps_per_epoch,
-          validation_steps=IMAGENET_VAL_EXAMPLES // eval_batch_size,
-          validation_interval=steps_per_epoch,
-          optimizer_config=optimization.OptimizationConfig({
-              'optimizer': {
-                  'type': 'adamw',
-                  'adamw': {
-                      'weight_decay_rate': 0.05,
-                      'include_in_weight_decay': r'.*(kernel|weight):0$',
-                      'gradient_clip_norm': 0.0}
-              },
-              'learning_rate': {
-                  'type': 'cosine',
-                  'cosine': {
-                      'initial_learning_rate': 0.0005 * train_batch_size / 512,
-                      'decay_steps': 300 * steps_per_epoch,
-                  }
-              },
-              'warmup': {
-                  'type': 'linear',
-                  'linear': {
-                      'warmup_steps': 5 * steps_per_epoch,
-                      'warmup_learning_rate': 0
-                  }
-              }
-          })),
-      restrictions=[
-          'task.train_data.is_training != None',
-          'task.validation_data.is_training != None'
-      ])
-  return config
-@exp_factory.register_config_factory('deit_imagenet_pretrain_sd_erase_randa_cutmix')
-def image_classification_imagenet_deit_imagenet_pretrain_sd_erase_randa_cutmix() -> cfg.ExperimentConfig:
-  """Image classification on imagenet with vision transformer."""
-  train_batch_size = 4096  # 1024
-  eval_batch_size = 4096  # 1024
-  repeated_aug = 1
-  num_classes = 1001
-  label_smoothing = 0.1
-  steps_per_epoch = IMAGENET_TRAIN_EXAMPLES * repeated_aug // train_batch_size
-  config = cfg.ExperimentConfig(
-      task=ImageClassificationTask(
-          model=ImageClassificationModel(
-              num_classes=num_classes,
-              input_size=[224, 224, 3],
-              kernel_initializer='zeros',
-              backbone=backbones.Backbone(
-                  type='vit',
-                  vit=backbones.VisionTransformer(
-                      model_name='vit-b16',
-                      representation_size=768,
-                      init_stochastic_depth_rate=0.1,
-                      original_init=False,
-                      transformer=backbones.Transformer(
-                          dropout_rate=0.0, attention_dropout_rate=0.0)))),
-          losses=Losses(l2_weight_decay=0.0, label_smoothing=label_smoothing,
-                        one_hot=False, soft_labels=True),
-          train_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'train*'),
-              is_training=True,
-              global_batch_size=train_batch_size,
-              # repeated_aug=repeated_aug,
-              color_jitter=0.4,
-              random_erasing=common.RandomErasing(),
-              aug_type=common.Augmentation(
-                  type='randaug', randaug=common.RandAugment(
-                      magnitude=9, exclude_ops=['Cutout'])),
-              mixup_and_cutmix=common.MixupAndCutmix(
-                  num_classes=num_classes,
-                  label_smoothing=label_smoothing,
-                  mixup_alpha=0
-              )),
-          validation_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'valid*'),
-              is_training=False,
-              global_batch_size=eval_batch_size)),
-      trainer=cfg.TrainerConfig(
-          steps_per_loop=steps_per_epoch,
-          summary_interval=steps_per_epoch,
-          checkpoint_interval=steps_per_epoch,
-          train_steps=300 * steps_per_epoch,
-          validation_steps=IMAGENET_VAL_EXAMPLES // eval_batch_size,
-          validation_interval=steps_per_epoch,
-          optimizer_config=optimization.OptimizationConfig({
-              'optimizer': {
-                  'type': 'adamw',
-                  'adamw': {
-                      'weight_decay_rate': 0.05,
-                      'include_in_weight_decay': r'.*(kernel|weight):0$',
-                      'gradient_clip_norm': 0.0}
-              },
-              'learning_rate': {
-                  'type': 'cosine',
-                  'cosine': {
-                      'initial_learning_rate': 0.0005 * train_batch_size / 512,
-                      'decay_steps': 300 * steps_per_epoch,
-                  }
-              },
-              'warmup': {
-                  'type': 'linear',
-                  'linear': {
-                      'warmup_steps': 5 * steps_per_epoch,
-                      'warmup_learning_rate': 0
-                  }
-              }
-          })),
-      restrictions=[
-          'task.train_data.is_training != None',
-          'task.validation_data.is_training != None'
-      ])
-  return config
-@exp_factory.register_config_factory('deit_imagenet_pretrain_sd_erase_randa_mixupandcutmix_sanity')
-def image_classification_imagenet_deit_imagenet_pretrain_sd_erase_randa_mixupandcutmix_sanity() -> cfg.ExperimentConfig:
-  """Image classification on imagenet with vision transformer."""
-  train_batch_size = 4096  # 1024
-  eval_batch_size = 4096  # 1024
-  repeated_aug = 1
  num_classes = 1001
  label_smoothing = 0.1
-  steps_per_epoch = IMAGENET_TRAIN_EXAMPLES * repeated_aug // train_batch_size
+  steps_per_epoch = IMAGENET_TRAIN_EXAMPLES // train_batch_size
  config = cfg.ExperimentConfig(
      task=ImageClassificationTask(
          model=ImageClassificationModel(
@@ -726,7 +110,6 @@ def image_classification_imagenet_deit_imagenet_pretrain_sd_erase_randa_mixupand
              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'train*'),
              is_training=True,
              global_batch_size=train_batch_size,
-              # repeated_aug=repeated_aug,
              color_jitter=0.4,
              random_erasing=common.RandomErasing(),
              aug_type=common.Augmentation(
@@ -734,8 +117,7 @@ def image_classification_imagenet_deit_imagenet_pretrain_sd_erase_randa_mixupand
                      magnitude=9, exclude_ops=['Cutout'])),
              mixup_and_cutmix=common.MixupAndCutmix(
                  num_classes=num_classes,
-                  label_smoothing=label_smoothing,
+                  label_smoothing=label_smoothing
-                  prob=0,
              )),
          validation_data=DataConfig(
              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'valid*'),
@@ -779,145 +161,6 @@ def image_classification_imagenet_deit_imagenet_pretrain_sd_erase_randa_mixupand
  return config
-@exp_factory.register_config_factory('deit_imagenet_pretrain_sd_randacomplete')
-def image_classification_imagenet_deit_imagenet_pretrain_sd_randacomplete() -> cfg.ExperimentConfig:
-  """Image classification on imagenet with vision transformer."""
-  train_batch_size = 4096  # 1024
-  eval_batch_size = 4096  # 1024
-  repeated_aug = 1
-  steps_per_epoch = IMAGENET_TRAIN_EXAMPLES * repeated_aug // train_batch_size
-  config = cfg.ExperimentConfig(
-      task=ImageClassificationTask(
-          model=ImageClassificationModel(
-              num_classes=1001,
-              input_size=[224, 224, 3],
-              kernel_initializer='zeros',
-              backbone=backbones.Backbone(
-                  type='vit',
-                  vit=backbones.VisionTransformer(
-                      model_name='vit-b16',
-                      representation_size=768,
-                      init_stochastic_depth_rate=0.1,
-                      original_init=False,
-                      transformer=backbones.Transformer(
-                          dropout_rate=0.0, attention_dropout_rate=0.0)))),
-          losses=Losses(l2_weight_decay=0.0, label_smoothing=0.1),
-          train_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'train*'),
-              is_training=True,
-              global_batch_size=train_batch_size,
-              # # repeated_aug=repeated_aug,
-              color_jitter=0.4,
-              aug_type=common.Augmentation(
-                  type='randaug', randaug=common.RandAugment(magnitude=9))),
-          validation_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'valid*'),
-              is_training=False,
-              global_batch_size=eval_batch_size)),
-      trainer=cfg.TrainerConfig(
-          steps_per_loop=steps_per_epoch,
-          summary_interval=steps_per_epoch,
-          checkpoint_interval=steps_per_epoch,
-          train_steps=300 * steps_per_epoch,
-          validation_steps=IMAGENET_VAL_EXAMPLES // eval_batch_size,
-          validation_interval=steps_per_epoch,
-          optimizer_config=optimization.OptimizationConfig({
-              'optimizer': {
-                  'type': 'adamw',
-                  'adamw': {
-                      'weight_decay_rate': 0.05,
-                      'include_in_weight_decay': r'.*(kernel|weight):0$',
-                      'gradient_clip_norm': 0.0}
-              },
-              'learning_rate': {
-                  'type': 'cosine',
-                  'cosine': {
-                      'initial_learning_rate': 0.0005 * train_batch_size / 512,
-                      'decay_steps': 300 * steps_per_epoch,
-                  }
-              },
-              'warmup': {
-                  'type': 'linear',
-                  'linear': {
-                      'warmup_steps': 5 * steps_per_epoch,
-                      'warmup_learning_rate': 0
-                  }
-              }
-          })),
-      restrictions=[
-          'task.train_data.is_training != None',
-          'task.validation_data.is_training != None'
-      ])
-  return config
-@exp_factory.register_config_factory('vit_imagenet_pretrain_deitinit')
-def image_classification_imagenet_vit_pretrain_deitinit() -> cfg.ExperimentConfig:
-  """Image classification on imagenet with vision transformer."""
-  train_batch_size = 4096
-  eval_batch_size = 4096
-  steps_per_epoch = IMAGENET_TRAIN_EXAMPLES // train_batch_size
-  config = cfg.ExperimentConfig(
-      task=ImageClassificationTask(
-          model=ImageClassificationModel(
-              num_classes=1001,
-              input_size=[224, 224, 3],
-              kernel_initializer='zeros',
-              backbone=backbones.Backbone(
-                  type='vit',
-                  vit=backbones.VisionTransformer(
-                      original_init=False,
-                      model_name='vit-b16',
-                      representation_size=768))),
-          losses=Losses(l2_weight_decay=0.0),
-          train_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'train*'),
-              is_training=True,
-              global_batch_size=train_batch_size),
-          validation_data=DataConfig(
-              input_path=os.path.join(IMAGENET_INPUT_PATH_BASE, 'valid*'),
-              is_training=False,
-              global_batch_size=eval_batch_size)),
-      trainer=cfg.TrainerConfig(
-          steps_per_loop=steps_per_epoch,
-          summary_interval=steps_per_epoch,
-          checkpoint_interval=steps_per_epoch,
-          train_steps=300 * steps_per_epoch,
-          validation_steps=IMAGENET_VAL_EXAMPLES // eval_batch_size,
-          validation_interval=steps_per_epoch,
-          optimizer_config=optimization.OptimizationConfig({
-              'optimizer': {
-                  'type': 'adamw',
-                  'adamw': {
-                      'weight_decay_rate': 0.3,
-                      'include_in_weight_decay': r'.*(kernel|weight):0$',
-                      'gradient_clip_norm': 0.0
-                  }
-              },
-              'learning_rate': {
-                  'type': 'cosine',
-                  'cosine': {
-                      'initial_learning_rate': 0.003 * train_batch_size / 4096,
-                      'decay_steps': 300 * steps_per_epoch,
-                  }
-              },
-              'warmup': {
-                  'type': 'linear',
-                  'linear': {
-                      'warmup_steps': 10000,
-                      'warmup_learning_rate': 0
-                  }
-              }
-          })),
-      restrictions=[
-          'task.train_data.is_training != None',
-          'task.validation_data.is_training != None'
-      ])
-  return config
 @exp_factory.register_config_factory('vit_imagenet_pretrain')
 def image_classification_imagenet_vit_pretrain() -> cfg.ExperimentConfig:
  """Image classification on imagenet with vision transformer."""