[FIX] replace DefaultFormatBundle/3D with Pack(3D)DetInputs (#1987)

* replace defaultformatbundle3d with pack3ddetinputs * remove normalize, pad, imagetotensor from configs * rm unused key 'img_norm_cfg' * fix lint errors * fix lint errors * fix lint error * xx

[FIX] replace DefaultFormatBundle/3D with Pack(3D)DetInputs (#1987)
* replace defaultformatbundle3d with pack3ddetinputs * remove normalize, pad, imagetotensor from configs * rm unused key 'img_norm_cfg' * fix lint errors * fix lint errors * fix lint error * xx
116d9f23 · Shaun · ZwwWayne · 054a96c7 · 116d9f23 · 116d9f23
Commit 116d9f23 authored Nov 23, 2022 by Shaun Committed by ZwwWayne Dec 03, 2022
11 changed files
--- a/configs/_base_/datasets/lyft-3d-range100.py
+++ b/configs/_base_/datasets/lyft-3d-range100.py
@@ -39,8 +39,9 @@ train_pipeline = [
    dict(type='PointsRangeFilter', point_cloud_range=point_cloud_range),
    dict(type='ObjectRangeFilter', point_cloud_range=point_cloud_range),
    dict(type='PointShuffle'),
-    dict(type='DefaultFormatBundle3D', class_names=class_names),
+    dict(
-    dict(type='Collect3D', keys=['points', 'gt_bboxes_3d', 'gt_labels_3d'])
+        type='Pack3DDetInputs',
+        keys=['points', 'gt_bboxes_3d', 'gt_labels_3d'])
 ]
 test_pipeline = [
    dict(type='LoadPointsFromFile', coord_type='LIDAR', load_dim=5, use_dim=5),
@@ -59,23 +60,15 @@ test_pipeline = [
            dict(type='RandomFlip3D'),
            dict(
                type='PointsRangeFilter', point_cloud_range=point_cloud_range),
-            dict(
+        ]),
-                type='DefaultFormatBundle3D',
+    dict(type='Pack3DDetInputs', keys=['points'])
-                class_names=class_names,
-                with_label=False),
-            dict(type='Collect3D', keys=['points'])
-        ])
 ]
 # construct a pipeline for data and gt loading in show function
 # please keep its loading function consistent with test_pipeline (e.g. client)
 eval_pipeline = [
    dict(type='LoadPointsFromFile', coord_type='LIDAR', load_dim=5, use_dim=5),
    dict(type='LoadPointsFromMultiSweeps', sweeps_num=10),
-    dict(
+    dict(type='Pack3DDetInputs', keys=['points'])
-        type='DefaultFormatBundle3D',
-        class_names=class_names,
-        with_label=False),
-    dict(type='Collect3D', keys=['points'])
 ]
 data = dict(

--- a/configs/_base_/datasets/nuim-instance.py
+++ b/configs/_base_/datasets/nuim-instance.py
@@ -4,8 +4,6 @@ class_names = [
    'car', 'truck', 'trailer', 'bus', 'construction_vehicle', 'bicycle',
    'motorcycle', 'pedestrian', 'traffic_cone', 'barrier'
 ]
-img_norm_cfg = dict(
-    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 file_client_args = dict(backend='disk')
 # Uncomment the following if use ceph or other file clients.
@@ -23,10 +21,7 @@ train_pipeline = [
        multiscale_mode='range',
        keep_ratio=True),
    dict(type='RandomFlip', flip_ratio=0.5),
-    dict(type='Normalize', **img_norm_cfg),
+    dict(type='PackDetInputs'),
-    dict(type='Pad', size_divisor=32),
-    dict(type='DefaultFormatBundle'),
-    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks']),
 ]
 test_pipeline = [
    dict(type='LoadImageFromFile'),
@@ -37,11 +32,11 @@ test_pipeline = [
        transforms=[
            dict(type='Resize', keep_ratio=True),
            dict(type='RandomFlip'),
-            dict(type='Normalize', **img_norm_cfg),
+        ]),
-            dict(type='Pad', size_divisor=32),
+    dict(
-            dict(type='ImageToTensor', keys=['img']),
+        type='PackDetInputs',
-            dict(type='Collect', keys=['img']),
+        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape',
-        ])
+                   'scale_factor')),
 ]
 data = dict(
    samples_per_gpu=2,

--- a/configs/centerpoint/README.md
+++ b/configs/centerpoint/README.md
@@ -91,12 +91,8 @@ test_pipeline = [
            dict(type='RandomFlip3D', sync_2d=False),
            dict(
                type='PointsRangeFilter', point_cloud_range=point_cloud_range),
-            dict(
+        ]),
-                type='DefaultFormatBundle3D',
+    dict(type='Pack3DDetInputs', keys=['points'])
-                class_names=class_names,
-                with_label=False),
-            dict(type='Collect3D', keys=['points'])
-        ])
 ]
 data = dict(

--- a/configs/nuimages/htc_r50_fpn_1x_nuim.py
+++ b/configs/nuimages/htc_r50_fpn_1x_nuim.py
@@ -18,8 +18,6 @@ model = dict(
            loss_weight=0.2)))
 data_root = 'data/nuimages/'
-img_norm_cfg = dict(
-    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(
@@ -30,13 +28,8 @@ train_pipeline = [
        multiscale_mode='range',
        keep_ratio=True),
    dict(type='RandomFlip', flip_ratio=0.5),
-    dict(type='Normalize', **img_norm_cfg),
-    dict(type='Pad', size_divisor=32),
    dict(type='SegRescale', scale_factor=1 / 8),
-    dict(type='DefaultFormatBundle'),
+    dict(type='PackDetInputs')
-    dict(
-        type='Collect',
-        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks', 'gt_semantic_seg'])
 ]
 data = dict(
    train=dict(

--- a/configs/nuimages/mask-rcnn_r50_caffe_fpn_1x_nuim.py
+++ b/configs/nuimages/mask-rcnn_r50_caffe_fpn_1x_nuim.py
@@ -8,9 +8,6 @@ model = dict(
    backbone=dict(norm_cfg=dict(requires_grad=False), style='caffe'),
    roi_head=dict(
        bbox_head=dict(num_classes=10), mask_head=dict(num_classes=10)))
-# use caffe img_norm
-img_norm_cfg = dict(
-    mean=[103.530, 116.280, 123.675], std=[1.0, 1.0, 1.0], to_rgb=False)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
@@ -20,10 +17,7 @@ train_pipeline = [
        multiscale_mode='range',
        keep_ratio=True),
    dict(type='RandomFlip', flip_ratio=0.5),
-    dict(type='Normalize', **img_norm_cfg),
+    dict(type='PackDetInputs'),
-    dict(type='Pad', size_divisor=32),
-    dict(type='DefaultFormatBundle'),
-    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks']),
 ]
 test_pipeline = [
    dict(type='LoadImageFromFile'),
@@ -34,11 +28,11 @@ test_pipeline = [
        transforms=[
            dict(type='Resize', keep_ratio=True),
            dict(type='RandomFlip'),
-            dict(type='Normalize', **img_norm_cfg),
+        ]),
-            dict(type='Pad', size_divisor=32),
+    dict(
-            dict(type='ImageToTensor', keys=['img']),
+        type='PackDetInputs',
-            dict(type='Collect', keys=['img']),
+        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape',
-        ])
+                   'scale_factor')),
 ]
 data = dict(
    train=dict(pipeline=train_pipeline),

--- a/configs/nuimages/mask-rcnn_r50_caffe_fpn_coco-3x_1x_nuim.py
+++ b/configs/nuimages/mask-rcnn_r50_caffe_fpn_coco-3x_1x_nuim.py
@@ -8,9 +8,6 @@ model = dict(
    backbone=dict(norm_cfg=dict(requires_grad=False), style='caffe'),
    roi_head=dict(
        bbox_head=dict(num_classes=10), mask_head=dict(num_classes=10)))
-# use caffe img_norm
-img_norm_cfg = dict(
-    mean=[103.530, 116.280, 123.675], std=[1.0, 1.0, 1.0], to_rgb=False)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
@@ -20,10 +17,7 @@ train_pipeline = [
        multiscale_mode='range',
        keep_ratio=True),
    dict(type='RandomFlip', flip_ratio=0.5),
-    dict(type='Normalize', **img_norm_cfg),
+    dict(type='PackDetInputs'),
-    dict(type='Pad', size_divisor=32),
-    dict(type='DefaultFormatBundle'),
-    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks']),
 ]
 test_pipeline = [
    dict(type='LoadImageFromFile'),
@@ -34,11 +28,11 @@ test_pipeline = [
        transforms=[
            dict(type='Resize', keep_ratio=True),
            dict(type='RandomFlip'),
-            dict(type='Normalize', **img_norm_cfg),
+        ]),
-            dict(type='Pad', size_divisor=32),
+    dict(
-            dict(type='ImageToTensor', keys=['img']),
+        type='PackDetInputs',
-            dict(type='Collect', keys=['img']),
+        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape',
-        ])
+                   'scale_factor')),
 ]
 data = dict(
    train=dict(pipeline=train_pipeline),

--- a/configs/nuimages/mask-rcnn_r50_caffe_fpn_coco-3x_20e_nuim.py
+++ b/configs/nuimages/mask-rcnn_r50_caffe_fpn_coco-3x_20e_nuim.py
@@ -8,9 +8,6 @@ model = dict(
    backbone=dict(norm_cfg=dict(requires_grad=False), style='caffe'),
    roi_head=dict(
        bbox_head=dict(num_classes=10), mask_head=dict(num_classes=10)))
-# use caffe img_norm
-img_norm_cfg = dict(
-    mean=[103.530, 116.280, 123.675], std=[1.0, 1.0, 1.0], to_rgb=False)
 train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='LoadAnnotations', with_bbox=True, with_mask=True),
@@ -20,10 +17,7 @@ train_pipeline = [
        multiscale_mode='range',
        keep_ratio=True),
    dict(type='RandomFlip', flip_ratio=0.5),
-    dict(type='Normalize', **img_norm_cfg),
+    dict(type='PackDetInputs'),
-    dict(type='Pad', size_divisor=32),
-    dict(type='DefaultFormatBundle'),
-    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels', 'gt_masks']),
 ]
 test_pipeline = [
    dict(type='LoadImageFromFile'),
@@ -34,11 +28,11 @@ test_pipeline = [
        transforms=[
            dict(type='Resize', keep_ratio=True),
            dict(type='RandomFlip'),
-            dict(type='Normalize', **img_norm_cfg),
+        ]),
-            dict(type='Pad', size_divisor=32),
+    dict(
-            dict(type='ImageToTensor', keys=['img']),
+        type='PackDetInputs',
-            dict(type='Collect', keys=['img']),
+        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape',
-        ])
+                   'scale_factor')),
 ]
 data = dict(
    train=dict(pipeline=train_pipeline),

--- a/configs/nuimages/mask-rcnn_r50_fpn_coco-2x_1x_nus-2d.py
+++ b/configs/nuimages/mask-rcnn_r50_fpn_coco-2x_1x_nus-2d.py
@@ -13,8 +13,6 @@ file_client_args = dict(
        './data/nuscenes/': 's3://nuscenes/nuscenes/',
        'data/nuscenes/': 's3://nuscenes/nuscenes/'
    }))
-img_norm_cfg = dict(
-    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
 test_pipeline = [
    dict(type='LoadImageFromFile'),
@@ -25,11 +23,11 @@ test_pipeline = [
        transforms=[
            dict(type='Resize', keep_ratio=True),
            dict(type='RandomFlip'),
-            dict(type='Normalize', **img_norm_cfg),
+        ]),
-            dict(type='Pad', size_divisor=32),
+    dict(
-            dict(type='ImageToTensor', keys=['img']),
+        type='PackDetInputs',
-            dict(type='Collect', keys=['img']),
+        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape',
-        ])
+                   'scale_factor')),
 ]
 data_root = 'data/nuimages/'
 # data = dict(

--- a/configs/parta2/PartA2_hv_secfpn_8xb2-cyclic-80e_kitti-3d-car.py
+++ b/configs/parta2/PartA2_hv_secfpn_8xb2-cyclic-80e_kitti-3d-car.py
@@ -124,12 +124,8 @@ test_pipeline = [
            dict(type='RandomFlip3D'),
            dict(
                type='PointsRangeFilter', point_cloud_range=point_cloud_range),
-            dict(
+        ]),
-                type='DefaultFormatBundle3D',
+    dict(type='Pack3DDetInputs', keys=['points'])
-                class_names=class_names,
-                with_label=False),
-            dict(type='Collect3D', keys=['points'])
-        ])
 ]
 train_dataloader = dict(

--- a/configs/pgd/pgd_r101-caffe_fpn_head-gn_16xb2-1x_nus-mono3d.py
+++ b/configs/pgd/pgd_r101-caffe_fpn_head-gn_16xb2-1x_nus-mono3d.py
@@ -44,8 +44,6 @@ class_names = [
    'car', 'truck', 'trailer', 'bus', 'construction_vehicle', 'bicycle',
    'motorcycle', 'pedestrian', 'traffic_cone', 'barrier'
 ]
-img_norm_cfg = dict(
-    mean=[103.530, 116.280, 123.675], std=[1.0, 1.0, 1.0], to_rgb=False)
 train_pipeline = [
    dict(type='LoadImageFromFileMono3D'),
    dict(
@@ -58,11 +56,8 @@ train_pipeline = [
        with_bbox_depth=True),
    dict(type='Resize', img_scale=(1600, 900), keep_ratio=True),
    dict(type='RandomFlip3D', flip_ratio_bev_horizontal=0.5),
-    dict(type='Normalize', **img_norm_cfg),
-    dict(type='Pad', size_divisor=32),
-    dict(type='DefaultFormatBundle3D', class_names=class_names),
    dict(
-        type='Collect3D',
+        type='Pack3DDetInputs',
        keys=[
            'img', 'gt_bboxes', 'gt_bboxes_labels', 'attr_labels',
            'gt_bboxes_3d', 'gt_labels_3d', 'centers2d', 'depths'
@@ -76,14 +71,8 @@ test_pipeline = [
        flip=False,
        transforms=[
            dict(type='RandomFlip3D'),
-            dict(type='Normalize', **img_norm_cfg),
+        ]),
-            dict(type='Pad', size_divisor=32),
+    dict(type='Pack3DDetInputs', keys=['img']),
-            dict(
-                type='DefaultFormatBundle3D',
-                class_names=class_names,
-                with_label=False),
-            dict(type='Collect3D', keys=['img']),
-        ])
 ]
 data = dict(
    samples_per_gpu=2,

--- a/tools/dataset_converters/update_infos_to_v2.py
+++ b/tools/dataset_converters/update_infos_to_v2.py
@@ -284,8 +284,8 @@ def update_nuscenes_infos(pkl_path, out_dir):
            ori_info_dict['ego2global_translation'])
        temp_data_info['lidar_points']['num_pts_feats'] = ori_info_dict.get(
            'num_features', 5)
-        temp_data_info['lidar_points']['lidar_path'] = Path(ori_info_dict[
+        temp_data_info['lidar_points']['lidar_path'] = Path(
-            'lidar_path']).name
+            ori_info_dict['lidar_path']).name
        temp_data_info['lidar_points'][
            'lidar2ego'] = convert_quaternion_to_matrix(
                ori_info_dict['lidar2ego_rotation'],
@@ -315,8 +315,8 @@ def update_nuscenes_infos(pkl_path, out_dir):
        temp_data_info['images'] = {}
        for cam in ori_info_dict['cams']:
            empty_img_info = get_empty_img_info()
-            empty_img_info['img_path'] = Path(ori_info_dict['cams'][cam][
+            empty_img_info['img_path'] = Path(
-                'data_path']).name
+                ori_info_dict['cams'][cam]['data_path']).name
            empty_img_info['cam2img'] = ori_info_dict['cams'][cam][
                'cam_intrinsic'].tolist()
            empty_img_info['sample_data_token'] = ori_info_dict['cams'][cam][
@@ -411,15 +411,15 @@ def update_kitti_infos(pkl_path, out_dir):
        temp_data_info['images']['CAM3']['cam2img'] = ori_info_dict['calib'][
            'P3'].tolist()
-        temp_data_info['images']['CAM2']['img_path'] = Path(ori_info_dict['image'][
+        temp_data_info['images']['CAM2']['img_path'] = Path(
-            'image_path']).name
+            ori_info_dict['image']['image_path']).name
        h, w = ori_info_dict['image']['image_shape']
        temp_data_info['images']['CAM2']['height'] = h
        temp_data_info['images']['CAM2']['width'] = w
        temp_data_info['lidar_points']['num_pts_feats'] = ori_info_dict[
            'point_cloud']['num_features']
-        temp_data_info['lidar_points']['lidar_path'] = Path(ori_info_dict[
+        temp_data_info['lidar_points']['lidar_path'] = Path(
-            'point_cloud']['velodyne_path']).name
+            ori_info_dict['point_cloud']['velodyne_path']).name
        rect = ori_info_dict['calib']['R0_rect'].astype(np.float32)
        Trv2c = ori_info_dict['calib']['Tr_velo_to_cam'].astype(np.float32)
@@ -533,12 +533,12 @@ def update_s3dis_infos(pkl_path, out_dir):
        temp_data_info['sample_idx'] = i
        temp_data_info['lidar_points']['num_pts_feats'] = ori_info_dict[
            'point_cloud']['num_features']
-        temp_data_info['lidar_points']['lidar_path'] = Path(ori_info_dict[
+        temp_data_info['lidar_points']['lidar_path'] = Path(
-            'pts_path']).name
+            ori_info_dict['pts_path']).name
-        temp_data_info['pts_semantic_mask_path'] = Path(ori_info_dict[
+        temp_data_info['pts_semantic_mask_path'] = Path(
-            'pts_semantic_mask_path']).name
+            ori_info_dict['pts_semantic_mask_path']).name
-        temp_data_info['pts_instance_mask_path'] = Path(ori_info_dict[
+        temp_data_info['pts_instance_mask_path'] = Path(
-            'pts_instance_mask_path']).name
+            ori_info_dict['pts_instance_mask_path']).name
        # TODO support camera
        # np.linalg.inv(info['axis_align_matrix'] @ extrinsic): depth2cam
@@ -607,12 +607,12 @@ def update_scannet_infos(pkl_path, out_dir):
        temp_data_info = get_empty_standard_data_info()
        temp_data_info['lidar_points']['num_pts_feats'] = ori_info_dict[
            'point_cloud']['num_features']
-        temp_data_info['lidar_points']['lidar_path'] = Path(ori_info_dict[
+        temp_data_info['lidar_points']['lidar_path'] = Path(
-            'pts_path']).name
+            ori_info_dict['pts_path']).name
-        temp_data_info['pts_semantic_mask_path'] = Path(ori_info_dict[
+        temp_data_info['pts_semantic_mask_path'] = Path(
-            'pts_semantic_mask_path']).name
+            ori_info_dict['pts_semantic_mask_path']).name
-        temp_data_info['pts_instance_mask_path'] = Path(ori_info_dict[
+        temp_data_info['pts_instance_mask_path'] = Path(
-            'pts_instance_mask_path']).name
+            ori_info_dict['pts_instance_mask_path']).name
        # TODO support camera
        # np.linalg.inv(info['axis_align_matrix'] @ extrinsic): depth2cam
@@ -679,8 +679,8 @@ def update_sunrgbd_infos(pkl_path, out_dir):
        temp_data_info = get_empty_standard_data_info()
        temp_data_info['lidar_points']['num_pts_feats'] = ori_info_dict[
            'point_cloud']['num_features']
-        temp_data_info['lidar_points']['lidar_path'] = Path(ori_info_dict[
+        temp_data_info['lidar_points']['lidar_path'] = Path(
-            'pts_path']).name
+            ori_info_dict['pts_path']).name
        calib = ori_info_dict['calib']
        rt_mat = calib['Rt']
        # follow Coord3DMode.convert_point
@@ -688,8 +688,8 @@ def update_sunrgbd_infos(pkl_path, out_dir):
                           ]) @ rt_mat.transpose(1, 0)
        depth2img = calib['K'] @ rt_mat
        temp_data_info['images']['CAM0']['depth2img'] = depth2img.tolist()
-        temp_data_info['images']['CAM0']['img_path'] = Path(ori_info_dict['image'][
+        temp_data_info['images']['CAM0']['img_path'] = Path(
-            'image_path']).name
+            ori_info_dict['image']['image_path']).name
        h, w = ori_info_dict['image']['image_shape']
        temp_data_info['images']['CAM0']['height'] = h
        temp_data_info['images']['CAM0']['width'] = w
@@ -761,8 +761,8 @@ def update_lyft_infos(pkl_path, out_dir):
        temp_data_info['ego2global'] = convert_quaternion_to_matrix(
            ori_info_dict['ego2global_rotation'],
            ori_info_dict['ego2global_translation'])
-        temp_data_info['lidar_points']['lidar_path'] = Path(ori_info_dict[
+        temp_data_info['lidar_points']['lidar_path'] = Path(
-            'lidar_path']).name
+            ori_info_dict['lidar_path']).name
        temp_data_info['lidar_points'][
            'lidar2ego'] = convert_quaternion_to_matrix(
                ori_info_dict['lidar2ego_rotation'],
@@ -793,8 +793,8 @@ def update_lyft_infos(pkl_path, out_dir):
        temp_data_info['images'] = {}
        for cam in ori_info_dict['cams']:
            empty_img_info = get_empty_img_info()
-            empty_img_info['img_path'] = Path(ori_info_dict['cams'][cam][
+            empty_img_info['img_path'] = Path(
-                'data_path']).name
+                ori_info_dict['cams'][cam]['data_path']).name
            empty_img_info['cam2img'] = ori_info_dict['cams'][cam][
                'cam_intrinsic'].tolist()
            empty_img_info['sample_data_token'] = ori_info_dict['cams'][cam][
@@ -913,8 +913,8 @@ def update_waymo_infos(pkl_path, out_dir):
            'point_cloud']['num_features']
        temp_data_info['lidar_points']['timestamp'] = ori_info_dict[
            'timestamp']
-        temp_data_info['lidar_points']['lidar_path'] = Path(ori_info_dict[
+        temp_data_info['lidar_points']['lidar_path'] = Path(
-            'point_cloud']['velodyne_path']).name
+            ori_info_dict['point_cloud']['velodyne_path']).name
        # TODO discuss the usage of Tr_velo_to_cam in lidar
        Trv2c = ori_info_dict['calib']['Tr_velo_to_cam'].astype(np.float32)
@@ -934,8 +934,8 @@ def update_waymo_infos(pkl_path, out_dir):
            lidar_sweep = get_single_lidar_sweep()
            lidar_sweep['ego2global'] = ori_sweep['pose']
            lidar_sweep['timestamp'] = ori_sweep['timestamp']
-            lidar_sweep['lidar_points']['lidar_path'] = Path(ori_sweep[
+            lidar_sweep['lidar_points']['lidar_path'] = Path(
-                'velodyne_path']).name
+                ori_sweep['velodyne_path']).name
            # image sweeps
            image_sweep = get_single_image_sweep(camera_types)
            image_sweep['ego2global'] = ori_sweep['pose']