[Refactor] move voxelization to data_preprocessor and fix new ut bugs (#1671)

* mv voxelization * update * update full * fix configs * improve docstring of data_preprocessor * fix dynamic voxel config * remove default voxel_type in config * fix typos * add docstring * fix ut * update * fix docstring

[Refactor] move voxelization to data_preprocessor and fix new ut bugs (#1671)
* mv voxelization * update * update full * fix configs * improve docstring of data_preprocessor * fix dynamic voxel config * remove default voxel_type in config * fix typos * add docstring * fix ut * update * fix docstring
86f6183d · ChaimZhu · GitHub · a50c71dd · 86f6183d · 86f6183d
Unverified Commit 86f6183d authored Aug 15, 2022 by ChaimZhu Committed by GitHub Aug 15, 2022
20 changed files
--- a/configs/_base_/models/centerpoint_01voxel_second_secfpn_nus.py
+++ b/configs/_base_/models/centerpoint_01voxel_second_secfpn_nus.py
 voxel_size = [0.1, 0.1, 0.2]
 model = dict(
    type='CenterPoint',
-    data_preprocessor=dict(type='Det3DDataPreprocessor'),
+    data_preprocessor=dict(
-    pts_voxel_layer=dict(
+        type='Det3DDataPreprocessor',
-        max_num_points=10, voxel_size=voxel_size, max_voxels=(90000, 120000)),
+        voxel=True,
+        voxel_layer=dict(
+            max_num_points=10,
+            voxel_size=voxel_size,
+            max_voxels=(90000, 120000))),
    pts_voxel_encoder=dict(type='HardSimpleVFE', num_features=5),
    pts_middle_encoder=dict(
        type='SparseEncoder',

--- a/configs/_base_/models/centerpoint_02pillar_second_secfpn_nus.py
+++ b/configs/_base_/models/centerpoint_02pillar_second_secfpn_nus.py
 voxel_size = [0.2, 0.2, 8]
 model = dict(
    type='CenterPoint',
-    data_preprocessor=dict(type='Det3DDataPreprocessor'),
+    data_preprocessor=dict(
-    pts_voxel_layer=dict(
+        type='Det3DDataPreprocessor',
-        max_num_points=20, voxel_size=voxel_size, max_voxels=(30000, 40000)),
+        voxel=True,
+        voxel_layer=dict(
+            max_num_points=20,
+            voxel_size=voxel_size,
+            max_voxels=(30000, 40000))),
    pts_voxel_encoder=dict(
        type='PillarFeatureNet',
        in_channels=5,

--- a/configs/_base_/models/hv_pointpillars_fpn_lyft.py
+++ b/configs/_base_/models/hv_pointpillars_fpn_lyft.py
@@ -6,10 +6,11 @@ _base_ = './hv_pointpillars_fpn_nus.py'
 # If point cloud range is modified, do remember to change all related
 # keys in the config.
 model = dict(
-    pts_voxel_layer=dict(
+    data_preprocessor=dict(
-        max_num_points=20,
+        voxel_layer=dict(
-        point_cloud_range=[-80, -80, -5, 80, 80, 3],
+            max_num_points=20,
-        max_voxels=(60000, 60000)),
+            point_cloud_range=[-80, -80, -5, 80, 80, 3],
+            max_voxels=(60000, 60000))),
    pts_voxel_encoder=dict(
        feat_channels=[64], point_cloud_range=[-80, -80, -5, 80, 80, 3]),
    pts_middle_encoder=dict(output_shape=[640, 640]),

--- a/configs/_base_/models/hv_pointpillars_fpn_nus.py
+++ b/configs/_base_/models/hv_pointpillars_fpn_nus.py
@@ -6,12 +6,14 @@
 voxel_size = [0.25, 0.25, 8]
 model = dict(
    type='MVXFasterRCNN',
-    data_preprocessor=dict(type='Det3DDataPreprocessor'),
+    data_preprocessor=dict(
-    pts_voxel_layer=dict(
+        type='Det3DDataPreprocessor',
-        max_num_points=64,
+        voxel=True,
-        point_cloud_range=[-50, -50, -5, 50, 50, 3],
+        voxel_layer=dict(
-        voxel_size=voxel_size,
+            max_num_points=64,
-        max_voxels=(30000, 40000)),
+            point_cloud_range=[-50, -50, -5, 50, 50, 3],
+            voxel_size=voxel_size,
+            max_voxels=(30000, 40000))),
    pts_voxel_encoder=dict(
        type='HardVFE',
        in_channels=4,

--- a/configs/_base_/models/hv_pointpillars_fpn_range100_lyft.py
+++ b/configs/_base_/models/hv_pointpillars_fpn_range100_lyft.py
@@ -6,10 +6,11 @@ _base_ = './hv_pointpillars_fpn_nus.py'
 # If point cloud range is modified, do remember to change all related
 # keys in the config.
 model = dict(
-    pts_voxel_layer=dict(
+    data_preprocessor=dict(
-        max_num_points=20,
+        voxel_layer=dict(
-        point_cloud_range=[-100, -100, -5, 100, 100, 3],
+            max_num_points=20,
-        max_voxels=(60000, 60000)),
+            point_cloud_range=[-100, -100, -5, 100, 100, 3],
+            max_voxels=(60000, 60000))),
    pts_voxel_encoder=dict(
        feat_channels=[64], point_cloud_range=[-100, -100, -5, 100, 100, 3]),
    pts_middle_encoder=dict(output_shape=[800, 800]),

--- a/configs/_base_/models/hv_pointpillars_secfpn_kitti.py
+++ b/configs/_base_/models/hv_pointpillars_secfpn_kitti.py
@@ -2,13 +2,14 @@ voxel_size = [0.16, 0.16, 4]
 model = dict(
    type='VoxelNet',
-    data_preprocessor=dict(type='Det3DDataPreprocessor'),
+    data_preprocessor=dict(
-    voxel_layer=dict(
+        type='Det3DDataPreprocessor',
-        max_num_points=32,  # max_points_per_voxel
+        voxel=True,
-        point_cloud_range=[0, -39.68, -3, 69.12, 39.68, 1],
+        voxel_layer=dict(
-        voxel_size=voxel_size,
+            max_num_points=32,  # max_points_per_voxel
-        max_voxels=(16000, 40000)  # (training, testing) max_voxels
+            point_cloud_range=[0, -39.68, -3, 69.12, 39.68, 1],
-    ),
+            voxel_size=voxel_size,
+            max_voxels=(16000, 40000))),
    voxel_encoder=dict(
        type='PillarFeatureNet',
        in_channels=4,

--- a/configs/_base_/models/hv_pointpillars_secfpn_waymo.py
+++ b/configs/_base_/models/hv_pointpillars_secfpn_waymo.py
@@ -6,12 +6,14 @@
 voxel_size = [0.32, 0.32, 6]
 model = dict(
    type='MVXFasterRCNN',
-    data_preprocessor=dict(type='Det3DDataPreprocessor'),
+    data_preprocessor=dict(
-    pts_voxel_layer=dict(
+        type='Det3DDataPreprocessor',
-        max_num_points=20,
+        voxel=True,
-        point_cloud_range=[-74.88, -74.88, -2, 74.88, 74.88, 4],
+        voxel_layer=dict(
-        voxel_size=voxel_size,
+            max_num_points=20,
-        max_voxels=(32000, 32000)),
+            point_cloud_range=[-74.88, -74.88, -2, 74.88, 74.88, 4],
+            voxel_size=voxel_size,
+            max_voxels=(32000, 32000))),
    pts_voxel_encoder=dict(
        type='HardVFE',
        in_channels=5,

--- a/configs/_base_/models/hv_second_secfpn_kitti.py
+++ b/configs/_base_/models/hv_second_secfpn_kitti.py
@@ -2,12 +2,14 @@ voxel_size = [0.05, 0.05, 0.1]
 model = dict(
    type='VoxelNet',
-    data_preprocessor=dict(type='Det3DDataPreprocessor'),
+    data_preprocessor=dict(
-    voxel_layer=dict(
+        type='Det3DDataPreprocessor',
-        max_num_points=5,
+        voxel=True,
-        point_cloud_range=[0, -40, -3, 70.4, 40, 1],
+        voxel_layer=dict(
-        voxel_size=voxel_size,
+            max_num_points=5,
-        max_voxels=(16000, 40000)),
+            point_cloud_range=[0, -40, -3, 70.4, 40, 1],
+            voxel_size=voxel_size,
+            max_voxels=(16000, 40000))),
    voxel_encoder=dict(type='HardSimpleVFE'),
    middle_encoder=dict(
        type='SparseEncoder',

--- a/configs/_base_/models/hv_second_secfpn_waymo.py
+++ b/configs/_base_/models/hv_second_secfpn_waymo.py
@@ -6,12 +6,14 @@
 voxel_size = [0.08, 0.08, 0.1]
 model = dict(
    type='MVXFasterRCNN',
-    data_preprocessor=dict(type='Det3DDataPreprocessor'),
+    data_preprocessor=dict(
-    pts_voxel_layer=dict(
+        type='Det3DDataPreprocessor',
-        max_num_points=20,
+        voxel=True,
-        point_cloud_range=[-76.8, -51.2, -2, 76.8, 51.2, 4],
+        voxel_layer=dict(
-        voxel_size=voxel_size,
+            max_num_points=20,
-        max_voxels=(80000, 90000)),
+            point_cloud_range=[-76.8, -51.2, -2, 76.8, 51.2, 4],
+            voxel_size=voxel_size,
+            max_voxels=(80000, 90000))),
    pts_voxel_encoder=dict(type='HardSimpleVFE', num_features=5),
    pts_middle_encoder=dict(
        type='SparseEncoder',

--- a/configs/_base_/models/parta2.py
+++ b/configs/_base_/models/parta2.py
@@ -4,13 +4,14 @@ point_cloud_range = [0, -40, -3, 70.4, 40, 1]
 model = dict(
    type='PartA2',
-    data_preprocessor=dict(type='Det3DDataPreprocessor'),
+    data_preprocessor=dict(
-    voxel_layer=dict(
+        type='Det3DDataPreprocessor',
-        max_num_points=5,  # max_points_per_voxel
+        voxel=True,
-        point_cloud_range=point_cloud_range,
+        voxel_layer=dict(
-        voxel_size=voxel_size,
+            max_num_points=5,  # max_points_per_voxel
-        max_voxels=(16000, 40000)  # (training, testing) max_voxels
+            point_cloud_range=point_cloud_range,
-    ),
+            voxel_size=voxel_size,
+            max_voxels=(16000, 40000))),
    voxel_encoder=dict(type='HardSimpleVFE'),
    middle_encoder=dict(
        type='SparseUNet',

--- a/configs/benchmark/hv_PartA2_secfpn_4x8_cyclic_80e_pcdet_kitti-3d-3class.py
+++ b/configs/benchmark/hv_PartA2_secfpn_4x8_cyclic_80e_pcdet_kitti-3d-3class.py
@@ -4,12 +4,14 @@ point_cloud_range = [0, -40, -3, 70.4, 40, 1]  # velodyne coordinates, x, y, z
 model = dict(
    type='PartA2',
-    voxel_layer=dict(
+    data_preprocessor=dict(
-        max_num_points=5,  # max_points_per_voxel
+        type='Det3DDataPreprocessor',
-        point_cloud_range=point_cloud_range,
+        voxel=True,
-        voxel_size=voxel_size,
+        voxel_layer=dict(
-        max_voxels=(16000, 40000)  # (training, testing) max_coxels
+            max_num_points=5,  # max_points_per_voxel
-    ),
+            point_cloud_range=point_cloud_range,
+            voxel_size=voxel_size,
+            max_voxels=(16000, 40000))),
    voxel_encoder=dict(type='HardSimpleVFE'),
    middle_encoder=dict(
        type='SparseUNet',

--- a/configs/benchmark/hv_pointpillars_secfpn_3x8_100e_det3d_kitti-3d-car.py
+++ b/configs/benchmark/hv_pointpillars_secfpn_3x8_100e_det3d_kitti-3d-car.py
@@ -3,11 +3,14 @@ voxel_size = [0.16, 0.16, 4]
 point_cloud_range = [0, -39.68, -3, 69.12, 39.68, 1]
 model = dict(
    type='VoxelNet',
-    voxel_layer=dict(
+    data_preprocessor=dict(
-        max_num_points=64,
+        type='Det3DDataPreprocessor',
-        point_cloud_range=point_cloud_range,
+        voxel=True,
-        voxel_size=voxel_size,
+        voxel_layer=dict(
-        max_voxels=(12000, 20000)),
+            max_num_points=64,
+            point_cloud_range=point_cloud_range,
+            voxel_size=voxel_size,
+            max_voxels=(12000, 20000))),
    voxel_encoder=dict(
        type='PillarFeatureNet',
        in_channels=4,

--- a/configs/benchmark/hv_pointpillars_secfpn_4x8_80e_pcdet_kitti-3d-3class.py
+++ b/configs/benchmark/hv_pointpillars_secfpn_4x8_80e_pcdet_kitti-3d-3class.py
@@ -3,12 +3,14 @@ point_cloud_range = [0, -39.68, -3, 69.12, 39.68, 1]
 voxel_size = [0.16, 0.16, 4]
 model = dict(
    type='VoxelNet',
-    voxel_layer=dict(
+    data_preprocessor=dict(
-        max_num_points=32,  # max_points_per_voxel
+        type='Det3DDataPreprocessor',
-        point_cloud_range=point_cloud_range,
+        voxel=True,
-        voxel_size=voxel_size,
+        voxel_layer=dict(
-        max_voxels=(16000, 40000)  # (training, testing) max_coxels
+            max_num_points=32,  # max_points_per_voxel
-    ),
+            point_cloud_range=point_cloud_range,
+            voxel_size=voxel_size,
+            max_voxels=(16000, 40000))),
    voxel_encoder=dict(
        type='PillarFeatureNet',
        in_channels=4,

--- a/configs/benchmark/hv_second_secfpn_4x8_80e_pcdet_kitti-3d-3class.py
+++ b/configs/benchmark/hv_second_secfpn_4x8_80e_pcdet_kitti-3d-3class.py
@@ -4,11 +4,14 @@ point_cloud_range = [0, -40, -3, 70.4, 40, 1]
 model = dict(
    type='VoxelNet',
-    voxel_layer=dict(
+    data_preprocessor=dict(
-        max_num_points=5,
+        type='Det3DDataPreprocessor',
-        point_cloud_range=point_cloud_range,
+        voxel=True,
-        voxel_size=voxel_size,
+        voxel_layer=dict(
-        max_voxels=(16000, 40000)),
+            max_num_points=5,
+            point_cloud_range=point_cloud_range,
+            voxel_size=voxel_size,
+            max_voxels=(16000, 40000))),
    voxel_encoder=dict(type='HardSimpleVFE'),
    middle_encoder=dict(
        type='SparseEncoder',

--- a/configs/centerpoint/centerpoint_0075voxel_second_secfpn_4x8_cyclic_20e_nus.py
+++ b/configs/centerpoint/centerpoint_0075voxel_second_secfpn_4x8_cyclic_20e_nus.py
@@ -11,8 +11,9 @@ class_names = [
 ]
 data_prefix = dict(pts='samples/LIDAR_TOP', img='')
 model = dict(
-    pts_voxel_layer=dict(
+    data_preprocessor=dict(
-        voxel_size=voxel_size, point_cloud_range=point_cloud_range),
+        voxel_layer=dict(
+            voxel_size=voxel_size, point_cloud_range=point_cloud_range)),
    pts_middle_encoder=dict(sparse_shape=[41, 1440, 1440]),
    pts_bbox_head=dict(
        bbox_coder=dict(

--- a/configs/centerpoint/centerpoint_01voxel_second_secfpn_4x8_cyclic_20e_nus.py
+++ b/configs/centerpoint/centerpoint_01voxel_second_secfpn_4x8_cyclic_20e_nus.py
@@ -14,7 +14,8 @@ class_names = [
 ]
 data_prefix = dict(pts='samples/LIDAR_TOP', img='')
 model = dict(
-    pts_voxel_layer=dict(point_cloud_range=point_cloud_range),
+    data_preprocessor=dict(
+        voxel_layer=dict(point_cloud_range=point_cloud_range)),
    pts_bbox_head=dict(bbox_coder=dict(pc_range=point_cloud_range[:2])),
    # model training and testing settings
    train_cfg=dict(pts=dict(point_cloud_range=point_cloud_range)),

--- a/configs/centerpoint/centerpoint_02pillar_second_secfpn_4x8_cyclic_20e_nus.py
+++ b/configs/centerpoint/centerpoint_02pillar_second_secfpn_4x8_cyclic_20e_nus.py
@@ -14,7 +14,8 @@ class_names = [
 ]
 data_prefix = dict(pts='samples/LIDAR_TOP', img='')
 model = dict(
-    pts_voxel_layer=dict(point_cloud_range=point_cloud_range),
+    data_preprocessor=dict(
+        voxel_layer=dict(point_cloud_range=point_cloud_range)),
    pts_voxel_encoder=dict(point_cloud_range=point_cloud_range),
    pts_bbox_head=dict(bbox_coder=dict(pc_range=point_cloud_range[:2])),
    # model training and testing settings

--- a/configs/dynamic_voxelization/dv_pointpillars_secfpn_6x8_160e_kitti-3d-car.py
+++ b/configs/dynamic_voxelization/dv_pointpillars_secfpn_6x8_160e_kitti-3d-car.py
@@ -5,11 +5,13 @@ point_cloud_range = [0, -39.68, -3, 69.12, 39.68, 1]
 model = dict(
    type='DynamicVoxelNet',
-    voxel_layer=dict(
+    data_preprocessor=dict(
-        max_num_points=-1,
+        voxel_type='dynamic',
-        point_cloud_range=point_cloud_range,
+        voxel_layer=dict(
-        voxel_size=voxel_size,
+            max_num_points=-1,
-        max_voxels=(-1, -1)),
+            point_cloud_range=point_cloud_range,
+            voxel_size=voxel_size,
+            max_voxels=(-1, -1))),
    voxel_encoder=dict(
        type='DynamicPillarFeatureNet',
        in_channels=4,

--- a/configs/dynamic_voxelization/dv_second_secfpn_2x8_cosine_80e_kitti-3d-3class.py
+++ b/configs/dynamic_voxelization/dv_second_secfpn_2x8_cosine_80e_kitti-3d-3class.py
@@ -9,12 +9,14 @@ voxel_size = [0.05, 0.05, 0.1]
 model = dict(
    type='DynamicVoxelNet',
-    voxel_layer=dict(
+    data_preprocessor=dict(
-        _delete_=True,
+        voxel_type='dynamic',
-        max_num_points=-1,
+        voxel_layer=dict(
-        point_cloud_range=point_cloud_range,
+            _delete_=True,
-        voxel_size=voxel_size,
+            max_num_points=-1,
-        max_voxels=(-1, -1)),
+            point_cloud_range=point_cloud_range,
+            voxel_size=voxel_size,
+            max_voxels=(-1, -1))),
    voxel_encoder=dict(
        _delete_=True,
        type='DynamicSimpleVFE',

--- a/configs/dynamic_voxelization/dv_second_secfpn_6x8_80e_kitti-3d-car.py
+++ b/configs/dynamic_voxelization/dv_second_secfpn_6x8_80e_kitti-3d-car.py
@@ -5,12 +5,14 @@ voxel_size = [0.05, 0.05, 0.1]
 model = dict(
    type='DynamicVoxelNet',
-    voxel_layer=dict(
+    data_preprocessor=dict(
-        _delete_=True,
+        voxel_type='dynamic',
-        max_num_points=-1,
+        voxel_layer=dict(
-        point_cloud_range=point_cloud_range,
+            _delete_=True,
-        voxel_size=voxel_size,
+            max_num_points=-1,
-        max_voxels=(-1, -1)),
+            point_cloud_range=point_cloud_range,
+            voxel_size=voxel_size,
+            max_voxels=(-1, -1))),
    voxel_encoder=dict(
        _delete_=True,
        type='DynamicSimpleVFE',