Update configs

ed2bb815 · chenshi3 · 123d42e5 · ed2bb815 · ed2bb815 · ed2bb815
Commit ed2bb815 authored May 09, 2023 by chenshi3
6 changed files
--- a/README.md
+++ b/README.md
@@ -24,7 +24,7 @@ It is also the official code release of [`[PointRCNN]`](https://arxiv.org/abs/18
 ## Changelog
 [2023-05-xx] Added support for the multi-modal 3D object detection model [`BEVFusion`](https://arxiv.org/abs/2205.13542) on Nuscenes dataset, which fuses multi-modal information on BEV space and reaches 70.98% NDS on Nuscenes validation dataset. (see the [guideline](docs/guidelines_of_approaches/bevfusion.md) on how to train/test with BEVFusion).
 * Support multi-modal Nuscenes detection (See the [GETTING_STARTED.md](docs/GETTING_STARTED.md) to process data).
-* Support TransFusion-Lidar head, which ahcieves 69.43% NDS on Nuscenes validation dataset.
+* Support [TransFusion-Lidar](https://arxiv.org/abs/2203.11496) head, which ahcieves 69.43% NDS on Nuscenes validation dataset.

 [2023-04-02] Added support for [`VoxelNeXt`](https://github.com/dvlab-research/VoxelNeXt) on Nuscenes, Waymo, and Argoverse2 datasets. It is a fully sparse 3D object detection network, which is a clean sparse CNNs network and predicts 3D objects directly upon voxels.

@@ -213,8 +213,8 @@ All models are trained with 8 GPUs and are available for download. For training
 | [CenterPoint (voxel_size=0.1)](tools/cfgs/nuscenes_models/cbgs_voxel01_res3d_centerpoint.yaml)     |  30.11 | 	25.55 | 	38.28 | 21.94 | 18.87 | 56.03 | 64.54  |  [model-34M](https://drive.google.com/file/d/1Cz-J1c3dw7JAWc25KRG1XQj8yCaOlexQ/view?usp=sharing)   |
 | [CenterPoint (voxel_size=0.075)](tools/cfgs/nuscenes_models/cbgs_voxel0075_res3d_centerpoint.yaml) |  28.80 | 	25.43 | 	37.27 | 21.55 | 18.24 | 59.22 | 66.48  |  [model-34M](https://drive.google.com/file/d/1XOHAWm1MPkCKr1gqmc3TWi5AYZgPsgxU/view?usp=sharing)   |
 | [VoxelNeXt (voxel_size=0.075)](tools/cfgs/nuscenes_models/cbgs_voxel0075_voxelnext.yaml)   |  30.11 | 	25.23 | 	40.57 | 21.69 | 18.56 | 60.53 | 66.65  | [model-31M](https://drive.google.com/file/d/1IV7e7G9X-61KXSjMGtQo579pzDNbhwvf/view?usp=share_link) |
-| [TransFusion-L*](tools/cfgs/nuscenes_models/cbgs_transfusion_lidar.yaml)   |  27.96 | 	25.37 | 	29.35 | 27.31 | 18.55 | 64.58 | 69.43  | [model-32M](https://drive.google.com/file/d/1cuZ2qdDnxSwTCsiXWwbqCGF-uoazTXbz/view?usp=share_link) |
-| [BEVFusion](tools/cfgs/nuscenes_models/cbgs_bevfusion.yaml)   |  28.03 | 	25.43 | 	30.19 | 26.76 | 18.48 | 67.75 | 70.98  | [model-157M](https://drive.google.com/file/d/1X50b-8immqlqD8VPAUkSKI0Ls-4k37g9/view?usp=share_link) |
+| [TransFusion-L*](tools/cfgs/nuscenes_models/transfusion_lidar.yaml)   |  27.96 | 	25.37 | 	29.35 | 27.31 | 18.55 | 64.58 | 69.43  | [model-32M](https://drive.google.com/file/d/1cuZ2qdDnxSwTCsiXWwbqCGF-uoazTXbz/view?usp=share_link) |
+| [BEVFusion](tools/cfgs/nuscenes_models/bevfusion.yaml)   |  28.03 | 	25.43 | 	30.19 | 26.76 | 18.48 | 67.75 | 70.98  | [model-157M](https://drive.google.com/file/d/1X50b-8immqlqD8VPAUkSKI0Ls-4k37g9/view?usp=share_link) |

 *: Use the fade strategy, which disables data augmentations in the last several epochs during training.


--- a/docs/guidelines_of_approaches/bevfusion.md
+++ b/docs/guidelines_of_approaches/bevfusion.md
@@ -11,25 +11,25 @@ Please refer to [GETTING_STARTED.md](../GETTING_STARTED.md) to process the multi

 1.  Train the lidar branch for BEVFusion:
 ```shell
-bash scripts/dist_train.sh ${NUM_GPUS} --cfg_file cfgs/nuscenes_models/cbgs_transfusion_lidar.yaml \
+bash scripts/dist_train.sh ${NUM_GPUS} --cfg_file cfgs/nuscenes_models/transfusion_lidar.yaml \
 ```
-The ckpt will be saved in ../output/nuscenes_models/cbgs_transfusion_lidar/default/ckpt, or you can download pretrained checkpoint directly form [here](https://drive.google.com/file/d/1cuZ2qdDnxSwTCsiXWwbqCGF-uoazTXbz/view?usp=share_link).
+The ckpt will be saved in ../output/nuscenes_models/transfusion_lidar/default/ckpt, or you can download pretrained checkpoint directly form [here](https://drive.google.com/file/d/1cuZ2qdDnxSwTCsiXWwbqCGF-uoazTXbz/view?usp=share_link).

-1.  To train BEVFusion, you need to download pretrained parameters for image backbone [here](www.google.com), and specify the path in [config](../../tools/cfgs/nuscenes_models/cbgs_bevfusion.yaml#L88). Then run the following command:
+2.  To train BEVFusion, you need to download pretrained parameters for image backbone [here](https://drive.google.com/file/d/1v74WCt4_5ubjO7PciA5T0xhQc9bz_jZu/view?usp=share_link), and specify the path in [config](../../tools/cfgs/nuscenes_models/bevfusion.yaml#L88). Then run the following command:
 ```shell
-bash scripts/dist_train.sh ${NUM_GPUS} --cfg_file cfgs/nuscenes_models/cbgs_bevfusion.yaml \
+bash scripts/dist_train.sh ${NUM_GPUS} --cfg_file cfgs/nuscenes_models/bevfusion.yaml \
 --pretrained_model path_to_pretrained_lidar_branch_ckpt \
 ```
 ## Evaluation
 * Test with a pretrained model:
 ```shell
-bash scripts/dist_test.sh ${NUM_GPUS} --cfg_file  cfgs/nuscenes_models/cbgs_bevfusion.yaml \
--ckpt ../output/cfgs/nuscenes_models/cbgs_bevfusion/default/ckpt/checkpoint_epoch_6.pth
+bash scripts/dist_test.sh ${NUM_GPUS} --cfg_file  cfgs/nuscenes_models/bevfusion.yaml \
+--ckpt ../output/cfgs/nuscenes_models/bevfusion/default/ckpt/checkpoint_epoch_6.pth
 ```

 ## Performance
 All models are trained with spconv 1.0, but you can directly load them for testing regardless of the spconv version.
 |                                                                                                    |   mATE |  mASE  |  mAOE  | mAVE  | mAAE  |  mAP  |  NDS   |                                              download                                              | 
 |----------------------------------------------------------------------------------------------------|-------:|:------:|:------:|:-----:|:-----:|:-----:|:------:|:--------------------------------------------------------------------------------------------------:|
-| [TransFusion-L](../../tools/cfgs/nuscenes_models/cbgs_transfusion_lidar.yaml)   |  27.96 | 	25.37 | 	29.35 | 27.31 | 18.55 | 64.58 | 69.43  | [model-32M](https://drive.google.com/file/d/1cuZ2qdDnxSwTCsiXWwbqCGF-uoazTXbz/view?usp=share_link) |
-| [BEVFusion](../../tools/cfgs/nuscenes_models/cbgs_bevfusion.yaml)   |  28.03 | 	25.43 | 	30.19 | 26.76 | 18.48 | 67.75 | 70.98  | [model-157M](https://drive.google.com/file/d/1X50b-8immqlqD8VPAUkSKI0Ls-4k37g9/view?usp=share_link) |
+| [TransFusion-L](../../tools/cfgs/nuscenes_models/transfusion_lidar.yaml)   |  27.96 | 	25.37 | 	29.35 | 27.31 | 18.55 | 64.58 | 69.43  | [model-32M](https://drive.google.com/file/d/1cuZ2qdDnxSwTCsiXWwbqCGF-uoazTXbz/view?usp=share_link) |
+| [BEVFusion](../../tools/cfgs/nuscenes_models/bevfusion.yaml)   |  28.03 | 	25.43 | 	30.19 | 26.76 | 18.48 | 67.75 | 70.98  | [model-157M](https://drive.google.com/file/d/1X50b-8immqlqD8VPAUkSKI0Ls-4k37g9/view?usp=share_link) |
--- a/tools/cfgs/nuscenes_models/bevfusion.yaml
+++ b/tools/cfgs/nuscenes_models/bevfusion.yaml
+CLASS_NAMES: ['car','truck', 'construction_vehicle', 'bus', 'trailer',
+              'barrier', 'motorcycle', 'bicycle', 'pedestrian', 'traffic_cone']
+
+DATA_CONFIG:
+    _BASE_CONFIG_: cfgs/dataset_configs/nuscenes_dataset.yaml
+    POINT_CLOUD_RANGE: [-54.0, -54.0, -5.0, 54.0, 54.0, 3.0]
+    CAMERA_CONFIG:
+        USE_CAMERA: True
+        IMAGE:
+            FINAL_DIM: [256,704]
+            RESIZE_LIM_TRAIN: [0.38, 0.55]
+            RESIZE_LIM_TEST: [0.48, 0.48]
+
+    DATA_AUGMENTOR:
+        DISABLE_AUG_LIST: ['placeholder']
+        AUG_CONFIG_LIST:
+            - NAME: random_world_flip
+              ALONG_AXIS_LIST: ['x', 'y']
+
+            - NAME: random_world_rotation
+              WORLD_ROT_ANGLE: [-0.78539816, 0.78539816]
+
+            - NAME: random_world_scaling
+              WORLD_SCALE_RANGE: [0.9, 1.1]
+
+            - NAME: random_world_translation
+              NOISE_TRANSLATE_STD: [0.5, 0.5, 0.5]
+            
+            - NAME: imgaug
+              ROT_LIM: [-5.4, 5.4]
+              RAND_FLIP: True
+
+    DATA_PROCESSOR:
+        - NAME: mask_points_and_boxes_outside_range
+          REMOVE_OUTSIDE_BOXES: True
+
+        - NAME: shuffle_points
+          SHUFFLE_ENABLED: {
+            'train': True,
+            'test': True
+          }
+
+        - NAME: transform_points_to_voxels
+          VOXEL_SIZE: [0.075, 0.075, 0.2]
+          MAX_POINTS_PER_VOXEL: 10
+          MAX_NUMBER_OF_VOXELS: {
+            'train': 120000,
+            'test': 160000
+          }
+
+        - NAME: image_calibrate
+        
+        - NAME: image_normalize
+          mean: [0.485, 0.456, 0.406]
+          std: [0.229, 0.224, 0.225]
+
+
+MODEL:
+    NAME: BevFusion
+
+    VFE:
+        NAME: MeanVFE
+
+    BACKBONE_3D:
+        NAME: VoxelResBackBone8x
+        USE_BIAS: False
+
+    MAP_TO_BEV:
+        NAME: HeightCompression
+        NUM_BEV_FEATURES: 256
+    
+    IMAGE_BACKBONE:
+        NAME: SwinTransformer
+        EMBED_DIMS: 96
+        DEPTHS: [2, 2, 6, 2]
+        NUM_HEADS: [3, 6, 12, 24]
+        WINDOW_SIZE: 7
+        MLP_RATIO: 4
+        DROP_RATE: 0.
+        ATTN_DROP_RATE: 0.
+        DROP_PATH_RATE: 0.2
+        PATCH_NORM: True
+        OUT_INDICES: [1, 2, 3]
+        WITH_CP: False
+        CONVERT_WEIGHTS: True
+        INIT_CFG:
+            type: Pretrained
+            checkpoint: swint-nuimages-pretrained.pth
+    
+    NECK:
+        NAME: GeneralizedLSSFPN
+        IN_CHANNELS: [192, 384, 768]
+        OUT_CHANNELS: 256
+        START_LEVEL: 0
+        END_LEVEL: -1
+        NUM_OUTS: 3
+    
+    VTRANSFORM:
+        NAME: DepthLSSTransform
+        IMAGE_SIZE: [256, 704]
+        IN_CHANNEL: 256
+        OUT_CHANNEL: 80
+        FEATURE_SIZE: [32, 88]
+        XBOUND: [-54.0, 54.0, 0.3]
+        YBOUND: [-54.0, 54.0, 0.3]
+        ZBOUND: [-10.0, 10.0, 20.0]
+        DBOUND: [1.0, 60.0, 0.5]
+        DOWNSAMPLE: 2
+    
+    FUSER:
+        NAME: ConvFuser
+        IN_CHANNEL: 336
+        OUT_CHANNEL: 256
+    
+    BACKBONE_2D:
+        NAME: BaseBEVBackbone
+        LAYER_NUMS: [5, 5]
+        LAYER_STRIDES: [1, 2]
+        NUM_FILTERS: [128, 256]
+        UPSAMPLE_STRIDES: [1, 2]
+        NUM_UPSAMPLE_FILTERS: [256, 256]
+        USE_CONV_FOR_NO_STRIDE: True
+
+
+    DENSE_HEAD:
+        CLASS_AGNOSTIC: False
+        NAME: TransFusionHead
+
+        USE_BIAS_BEFORE_NORM: False
+
+        NUM_PROPOSALS: 200
+        HIDDEN_CHANNEL: 128
+        NUM_CLASSES: 10
+        NUM_HEADS: 8
+        NMS_KERNEL_SIZE: 3
+        FFN_CHANNEL: 256
+        DROPOUT: 0.1
+        BN_MOMENTUM: 0.1
+        ACTIVATION: relu
+
+        NUM_HM_CONV: 2
+        SEPARATE_HEAD_CFG:
+            HEAD_ORDER: ['center', 'height', 'dim', 'rot', 'vel']
+            HEAD_DICT: {
+                'center': {'out_channels': 2, 'num_conv': 2},
+                'height': {'out_channels': 1, 'num_conv': 2},
+                'dim': {'out_channels': 3, 'num_conv': 2},
+                'rot': {'out_channels': 2, 'num_conv': 2},
+                'vel': {'out_channels': 2, 'num_conv': 2},
+            }
+      
+        TARGET_ASSIGNER_CONFIG:
+            FEATURE_MAP_STRIDE: 8
+            DATASET: nuScenes
+            GAUSSIAN_OVERLAP: 0.1
+            MIN_RADIUS: 2
+            HUNGARIAN_ASSIGNER:
+                cls_cost: {'gamma': 2.0, 'alpha': 0.25, 'weight': 0.15}
+                reg_cost: {'weight': 0.25}
+                iou_cost: {'weight': 0.25}
+        
+        LOSS_CONFIG:
+            LOSS_WEIGHTS: {
+                    'cls_weight': 1.0,
+                    'bbox_weight': 0.25,
+                    'hm_weight': 1.0,
+                    'code_weights': [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.2, 0.2]
+                }
+            LOSS_CLS:
+                use_sigmoid: True
+                gamma: 2.0
+                alpha: 0.25
+          
+        POST_PROCESSING:
+            SCORE_THRESH: 0.0
+            POST_CENTER_RANGE: [-61.2, -61.2, -10.0, 61.2, 61.2, 10.0]
+
+    POST_PROCESSING:
+        RECALL_THRESH_LIST: [0.3, 0.5, 0.7]
+        SCORE_THRESH: 0.1
+        OUTPUT_RAW_SCORE: False
+
+        EVAL_METRIC: kitti
+
+
+
+OPTIMIZATION:
+    BATCH_SIZE_PER_GPU: 3
+    NUM_EPOCHS: 6
+
+    OPTIMIZER: adam_cosineanneal
+    LR: 0.0001
+    WEIGHT_DECAY: 0.01
+    MOMENTUM: 0.9
+    BETAS: [0.9, 0.999]
+
+    MOMS: [0.9, 0.8052631]
+    PCT_START: 0.4
+    WARMUP_ITER: 500
+
+    DECAY_STEP_LIST: [35, 45]
+    LR_WARMUP: False
+    WARMUP_EPOCH: 1
+
+    GRAD_NORM_CLIP: 35
+
+    LOSS_SCALE_FP16: 32
+  
\ No newline at end of file
--- a/tools/cfgs/nuscenes_models/cbgs_bevfusion.yaml
+++ b/tools/cfgs/nuscenes_models/cbgs_bevfusion.yaml
-CLASS_NAMES: ['car','truck', 'construction_vehicle', 'bus', 'trailer',
-              'barrier', 'motorcycle', 'bicycle', 'pedestrian', 'traffic_cone']
-
-DATA_CONFIG:
-  _BASE_CONFIG_: cfgs/dataset_configs/nuscenes_dataset.yaml
-  POINT_CLOUD_RANGE: [-54.0, -54.0, -5.0, 54.0, 54.0, 3.0]
-  CAMERA_CONFIG:
-      USE_CAMERA: True
-      IMAGE:
-        FINAL_DIM: [256,704]
-        RESIZE_LIM_TRAIN: [0.38, 0.55]
-        RESIZE_LIM_TEST: [0.48, 0.48]
-
-  DATA_AUGMENTOR:
-    DISABLE_AUG_LIST: ['placeholder']
-    AUG_CONFIG_LIST:
-      - NAME: random_world_flip
-        ALONG_AXIS_LIST: ['x', 'y']
-
-      - NAME: random_world_rotation
-        WORLD_ROT_ANGLE: [-0.78539816, 0.78539816]
-
-      - NAME: random_world_scaling
-        WORLD_SCALE_RANGE: [0.9, 1.1]
-
-      - NAME: random_world_translation
-        NOISE_TRANSLATE_STD: [0.5, 0.5, 0.5]
-      
-      - NAME: imgaug
-        ROT_LIM: [-5.4, 5.4]
-        RAND_FLIP: True
-
-  DATA_PROCESSOR:
-    - NAME: mask_points_and_boxes_outside_range
-      REMOVE_OUTSIDE_BOXES: True
-
-    - NAME: shuffle_points
-      SHUFFLE_ENABLED: {
-        'train': True,
-        'test': True
-      }
-
-    - NAME: transform_points_to_voxels
-      VOXEL_SIZE: [0.075, 0.075, 0.2]
-      MAX_POINTS_PER_VOXEL: 10
-      MAX_NUMBER_OF_VOXELS: {
-        'train': 120000,
-        'test': 160000
-      }
-
-    - NAME: image_calibrate
-    
-    - NAME: image_normalize
-      mean: [0.485, 0.456, 0.406]
-      std: [0.229, 0.224, 0.225]
-
-
-MODEL:
-  NAME: BevFusion
-
-  VFE:
-    NAME: MeanVFE
-
-  BACKBONE_3D:
-    NAME: VoxelResBackBone8x
-    USE_BIAS: False
-
-  MAP_TO_BEV:
-    NAME: HeightCompression
-    NUM_BEV_FEATURES: 256
-  
-  IMAGE_BACKBONE:
-    NAME: SwinTransformer
-    EMBED_DIMS: 96
-    DEPTHS: [2, 2, 6, 2]
-    NUM_HEADS: [3, 6, 12, 24]
-    WINDOW_SIZE: 7
-    MLP_RATIO: 4
-    DROP_RATE: 0.
-    ATTN_DROP_RATE: 0.
-    DROP_PATH_RATE: 0.2
-    PATCH_NORM: True
-    OUT_INDICES: [1, 2, 3]
-    WITH_CP: False
-    CONVERT_WEIGHTS: True
-    INIT_CFG:
-      type: Pretrained
-      # checkpoint: swint-nuimages-pretrained.pth
-      checkpoint: /slurm_data/shichen/package/tomopc_cu111/OpenPCDet/tmp/pretrained/swint-nuimages-pretrained.pth
-  
-  NECK:
-    NAME: GeneralizedLSSFPN
-    IN_CHANNELS: [192, 384, 768]
-    OUT_CHANNELS: 256
-    START_LEVEL: 0
-    END_LEVEL: -1
-    NUM_OUTS: 3
-  
-  VTRANSFORM:
-    NAME: DepthLSSTransform
-    IMAGE_SIZE: [256, 704]
-    IN_CHANNEL: 256
-    OUT_CHANNEL: 80
-    FEATURE_SIZE: [32, 88]
-    XBOUND: [-54.0, 54.0, 0.3]
-    YBOUND: [-54.0, 54.0, 0.3]
-    ZBOUND: [-10.0, 10.0, 20.0]
-    DBOUND: [1.0, 60.0, 0.5]
-    DOWNSAMPLE: 2
-  
-  FUSER:
-    NAME: ConvFuser
-    IN_CHANNEL: 336
-    OUT_CHANNEL: 256
-  
-  BACKBONE_2D:
-    NAME: BaseBEVBackbone
-    LAYER_NUMS: [5, 5]
-    LAYER_STRIDES: [1, 2]
-    NUM_FILTERS: [128, 256]
-    UPSAMPLE_STRIDES: [1, 2]
-    NUM_UPSAMPLE_FILTERS: [256, 256]
-    USE_CONV_FOR_NO_STRIDE: True
-
-
-  DENSE_HEAD:
-    CLASS_AGNOSTIC: False
-    NAME: TransFusionHead
-
-    USE_BIAS_BEFORE_NORM: False
-
-    NUM_PROPOSALS: 200
-    HIDDEN_CHANNEL: 128
-    NUM_CLASSES: 10
-    NUM_HEADS: 8
-    NMS_KERNEL_SIZE: 3
-    FFN_CHANNEL: 256
-    DROPOUT: 0.1
-    BN_MOMENTUM: 0.1
-    ACTIVATION: relu
-
-    NUM_HM_CONV: 2
-    SEPARATE_HEAD_CFG:
-      HEAD_ORDER: ['center', 'height', 'dim', 'rot', 'vel']
-      HEAD_DICT: {
-          'center': {'out_channels': 2, 'num_conv': 2},
-          'height': {'out_channels': 1, 'num_conv': 2},
-          'dim': {'out_channels': 3, 'num_conv': 2},
-          'rot': {'out_channels': 2, 'num_conv': 2},
-          'vel': {'out_channels': 2, 'num_conv': 2},
-      }
-  
-    TARGET_ASSIGNER_CONFIG:
-      FEATURE_MAP_STRIDE: 8
-      DATASET: nuScenes
-      GAUSSIAN_OVERLAP: 0.1
-      MIN_RADIUS: 2
-      HUNGARIAN_ASSIGNER:
-        cls_cost: {'gamma': 2.0, 'alpha': 0.25, 'weight': 0.15}
-        reg_cost: {'weight': 0.25}
-        iou_cost: {'weight': 0.25}
-    
-    LOSS_CONFIG:
-      LOSS_WEIGHTS: {
-              'cls_weight': 1.0,
-              'bbox_weight': 0.25,
-              'hm_weight': 1.0,
-              'code_weights': [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.2, 0.2]
-          }
-      LOSS_CLS:
-        use_sigmoid: True
-        gamma: 2.0
-        alpha: 0.25
-      
-    POST_PROCESSING:
-      SCORE_THRESH: 0.0
-      POST_CENTER_RANGE: [-61.2, -61.2, -10.0, 61.2, 61.2, 10.0]
-
-  POST_PROCESSING:
-    RECALL_THRESH_LIST: [0.3, 0.5, 0.7]
-    SCORE_THRESH: 0.1
-    OUTPUT_RAW_SCORE: False
-
-    EVAL_METRIC: kitti
-
-
-
-OPTIMIZATION:
-  BATCH_SIZE_PER_GPU: 3
-  NUM_EPOCHS: 6
-
-  OPTIMIZER: adam_cosineanneal
-  LR: 0.0001
-  WEIGHT_DECAY: 0.01
-  MOMENTUM: 0.9
-  BETAS: [0.9, 0.999]
-
-  MOMS: [0.9, 0.8052631]
-  PCT_START: 0.4
-  WARMUP_ITER: 500
-
-  DECAY_STEP_LIST: [35, 45]
-  LR_WARMUP: False
-  WARMUP_EPOCH: 1
-
-  GRAD_NORM_CLIP: 35
-
-  LOSS_SCALE_FP16: 32
-  
\ No newline at end of file
--- a/tools/cfgs/nuscenes_models/cbgs_transfusion_lidar.yaml
+++ b/tools/cfgs/nuscenes_models/cbgs_transfusion_lidar.yaml
-CLASS_NAMES: ['car','truck', 'construction_vehicle', 'bus', 'trailer',
-              'barrier', 'motorcycle', 'bicycle', 'pedestrian', 'traffic_cone']
-
-DATA_CONFIG:
-  _BASE_CONFIG_: cfgs/dataset_configs/nuscenes_dataset.yaml
-  POINT_CLOUD_RANGE: [-54.0, -54.0, -5.0, 54.0, 54.0, 3.0]
-
-  DATA_AUGMENTOR:
-    DISABLE_AUG_LIST: ['placeholder']
-    AUG_CONFIG_LIST:
-      - NAME: gt_sampling
-        DB_INFO_PATH:
-            - nuscenes_dbinfos_10sweeps_withvelo.pkl
-        PREPARE: {
-          filter_by_min_points: [
-              'car:5','truck:5', 'construction_vehicle:5', 'bus:5', 'trailer:5',
-              'barrier:5', 'motorcycle:5', 'bicycle:5', 'pedestrian:5', 'traffic_cone:5'
-          ],
-        }
-
-        SAMPLE_GROUPS: [
-            'car:2','truck:3', 'construction_vehicle:7', 'bus:4', 'trailer:6',
-            'barrier:2', 'motorcycle:6', 'bicycle:6', 'pedestrian:2', 'traffic_cone:2'
-        ]
-
-        NUM_POINT_FEATURES: 5
-        DATABASE_WITH_FAKELIDAR: False
-        REMOVE_EXTRA_WIDTH: [0.0, 0.0, 0.0]
-        LIMIT_WHOLE_SCENE: True
-    
-
-      - NAME: random_world_flip
-        ALONG_AXIS_LIST: ['x', 'y']
-
-      - NAME: random_world_rotation
-        WORLD_ROT_ANGLE: [-0.78539816, 0.78539816]
-
-      - NAME: random_world_scaling
-        WORLD_SCALE_RANGE: [0.9, 1.1]
-
-      - NAME: random_world_translation
-        NOISE_TRANSLATE_STD: [0.5, 0.5, 0.5]
-    
-  DATA_PROCESSOR:
-    - NAME: mask_points_and_boxes_outside_range
-      REMOVE_OUTSIDE_BOXES: True
-    - NAME: shuffle_points
-      SHUFFLE_ENABLED: {
-        'train': True,
-        'test': True
-      }
-
-    - NAME: transform_points_to_voxels
-      VOXEL_SIZE: [0.075, 0.075, 0.2]
-      MAX_POINTS_PER_VOXEL: 10
-      MAX_NUMBER_OF_VOXELS: {
-        'train': 120000,
-        'test': 160000
-      }
-
-MODEL:
-  NAME: TransFusion
-
-  VFE:
-    NAME: MeanVFE
-
-  BACKBONE_3D:
-    NAME: VoxelResBackBone8x
-    USE_BIAS: False
-
-  MAP_TO_BEV:
-    NAME: HeightCompression
-    NUM_BEV_FEATURES: 256
-
-  BACKBONE_2D:
-    NAME: BaseBEVBackbone
-    LAYER_NUMS: [5, 5]
-    LAYER_STRIDES: [1, 2]
-    NUM_FILTERS: [128, 256]
-    UPSAMPLE_STRIDES: [1, 2]
-    NUM_UPSAMPLE_FILTERS: [256, 256]
-    USE_CONV_FOR_NO_STRIDE: True
-
-
-  DENSE_HEAD:
-    CLASS_AGNOSTIC: False
-    NAME: TransFusionHead
-
-    USE_BIAS_BEFORE_NORM: False
-
-    NUM_PROPOSALS: 200
-    HIDDEN_CHANNEL: 128
-    NUM_CLASSES: 10
-    NUM_HEADS: 8
-    NMS_KERNEL_SIZE: 3
-    FFN_CHANNEL: 256
-    DROPOUT: 0.1
-    BN_MOMENTUM: 0.1
-    ACTIVATION: relu
-
-    NUM_HM_CONV: 2
-    SEPARATE_HEAD_CFG:
-      HEAD_ORDER: ['center', 'height', 'dim', 'rot', 'vel']
-      HEAD_DICT: {
-          'center': {'out_channels': 2, 'num_conv': 2},
-          'height': {'out_channels': 1, 'num_conv': 2},
-          'dim': {'out_channels': 3, 'num_conv': 2},
-          'rot': {'out_channels': 2, 'num_conv': 2},
-          'vel': {'out_channels': 2, 'num_conv': 2},
-      }
-  
-    TARGET_ASSIGNER_CONFIG:
-      FEATURE_MAP_STRIDE: 8
-      DATASET: nuScenes
-      GAUSSIAN_OVERLAP: 0.1
-      MIN_RADIUS: 2
-      HUNGARIAN_ASSIGNER:
-        cls_cost: {'gamma': 2.0, 'alpha': 0.25, 'weight': 0.15}
-        reg_cost: {'weight': 0.25}
-        iou_cost: {'weight': 0.25}
-    
-    LOSS_CONFIG:
-      LOSS_WEIGHTS: {
-              'cls_weight': 1.0,
-              'bbox_weight': 0.25,
-              'hm_weight': 1.0,
-              'code_weights': [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.2, 0.2]
-          }
-      LOSS_CLS:
-        use_sigmoid: True
-        gamma: 2.0
-        alpha: 0.25
-      
-    POST_PROCESSING:
-      SCORE_THRESH: 0.0
-      POST_CENTER_RANGE: [-61.2, -61.2, -10.0, 61.2, 61.2, 10.0]
-
-  POST_PROCESSING:
-      RECALL_THRESH_LIST: [0.3, 0.5, 0.7]
-      SCORE_THRESH: 0.1
-      OUTPUT_RAW_SCORE: False
-      EVAL_METRIC: kitti
-
-
-
-OPTIMIZATION:
-  BATCH_SIZE_PER_GPU: 4
-  NUM_EPOCHS: 20
-
-  OPTIMIZER: adam_onecycle
-  LR: 0.001
-  WEIGHT_DECAY: 0.01
-  MOMENTUM: 0.9
-  BETAS: [0.9, 0.999]
-
-  MOMS: [0.9, 0.8052631]
-  PCT_START: 0.4
-  DIV_FACTOR: 10
-  DECAY_STEP_LIST: [35, 45]
-  LR_DECAY: 0.1
-  LR_CLIP: 0.0000001
-
-  LR_WARMUP: False
-  WARMUP_EPOCH: 1
-
-  GRAD_NORM_CLIP: 35
-
-HOOK:
-  DisableAugmentationHook:
-    DISABLE_AUG_LIST: ['gt_sampling']
-    NUM_LAST_EPOCHS: 5
\ No newline at end of file
--- a/tools/cfgs/nuscenes_models/transfusion_lidar.yaml
+++ b/tools/cfgs/nuscenes_models/transfusion_lidar.yaml
+CLASS_NAMES: ['car','truck', 'construction_vehicle', 'bus', 'trailer',
+              'barrier', 'motorcycle', 'bicycle', 'pedestrian', 'traffic_cone']
+
+DATA_CONFIG:
+    _BASE_CONFIG_: cfgs/dataset_configs/nuscenes_dataset.yaml
+    POINT_CLOUD_RANGE: [-54.0, -54.0, -5.0, 54.0, 54.0, 3.0]
+
+    DATA_AUGMENTOR:
+        DISABLE_AUG_LIST: ['placeholder']
+        AUG_CONFIG_LIST:
+            - NAME: gt_sampling
+              DB_INFO_PATH:
+                  - nuscenes_dbinfos_10sweeps_withvelo.pkl
+              PREPARE: {
+                filter_by_min_points: [
+                    'car:5','truck:5', 'construction_vehicle:5', 'bus:5', 'trailer:5',
+                    'barrier:5', 'motorcycle:5', 'bicycle:5', 'pedestrian:5', 'traffic_cone:5'
+                ],
+              }
+
+              SAMPLE_GROUPS: [
+                  'car:2','truck:3', 'construction_vehicle:7', 'bus:4', 'trailer:6',
+                  'barrier:2', 'motorcycle:6', 'bicycle:6', 'pedestrian:2', 'traffic_cone:2'
+              ]
+
+              NUM_POINT_FEATURES: 5
+              DATABASE_WITH_FAKELIDAR: False
+              REMOVE_EXTRA_WIDTH: [0.0, 0.0, 0.0]
+              LIMIT_WHOLE_SCENE: True
+        
+
+            - NAME: random_world_flip
+              ALONG_AXIS_LIST: ['x', 'y']
+
+            - NAME: random_world_rotation
+              WORLD_ROT_ANGLE: [-0.78539816, 0.78539816]
+
+            - NAME: random_world_scaling
+              WORLD_SCALE_RANGE: [0.9, 1.1]
+
+            - NAME: random_world_translation
+              NOISE_TRANSLATE_STD: [0.5, 0.5, 0.5]
+      
+    DATA_PROCESSOR:
+        - NAME: mask_points_and_boxes_outside_range
+          REMOVE_OUTSIDE_BOXES: True
+        - NAME: shuffle_points
+          SHUFFLE_ENABLED: {
+            'train': True,
+            'test': True
+          }
+
+        - NAME: transform_points_to_voxels
+          VOXEL_SIZE: [0.075, 0.075, 0.2]
+          MAX_POINTS_PER_VOXEL: 10
+          MAX_NUMBER_OF_VOXELS: {
+            'train': 120000,
+            'test': 160000
+          }
+
+MODEL:
+    NAME: TransFusion
+
+    VFE:
+        NAME: MeanVFE
+
+    BACKBONE_3D:
+        NAME: VoxelResBackBone8x
+        USE_BIAS: False
+
+    MAP_TO_BEV:
+        NAME: HeightCompression
+        NUM_BEV_FEATURES: 256
+
+    BACKBONE_2D:
+        NAME: BaseBEVBackbone
+        LAYER_NUMS: [5, 5]
+        LAYER_STRIDES: [1, 2]
+        NUM_FILTERS: [128, 256]
+        UPSAMPLE_STRIDES: [1, 2]
+        NUM_UPSAMPLE_FILTERS: [256, 256]
+        USE_CONV_FOR_NO_STRIDE: True
+
+
+    DENSE_HEAD:
+        CLASS_AGNOSTIC: False
+        NAME: TransFusionHead
+
+        USE_BIAS_BEFORE_NORM: False
+
+        NUM_PROPOSALS: 200
+        HIDDEN_CHANNEL: 128
+        NUM_CLASSES: 10
+        NUM_HEADS: 8
+        NMS_KERNEL_SIZE: 3
+        FFN_CHANNEL: 256
+        DROPOUT: 0.1
+        BN_MOMENTUM: 0.1
+        ACTIVATION: relu
+
+        NUM_HM_CONV: 2
+        SEPARATE_HEAD_CFG:
+            HEAD_ORDER: ['center', 'height', 'dim', 'rot', 'vel']
+            HEAD_DICT: {
+                'center': {'out_channels': 2, 'num_conv': 2},
+                'height': {'out_channels': 1, 'num_conv': 2},
+                'dim': {'out_channels': 3, 'num_conv': 2},
+                'rot': {'out_channels': 2, 'num_conv': 2},
+                'vel': {'out_channels': 2, 'num_conv': 2},
+            }
+    
+        TARGET_ASSIGNER_CONFIG:
+            FEATURE_MAP_STRIDE: 8
+            DATASET: nuScenes
+            GAUSSIAN_OVERLAP: 0.1
+            MIN_RADIUS: 2
+            HUNGARIAN_ASSIGNER:
+                cls_cost: {'gamma': 2.0, 'alpha': 0.25, 'weight': 0.15}
+                reg_cost: {'weight': 0.25}
+                iou_cost: {'weight': 0.25}
+      
+        LOSS_CONFIG:
+            LOSS_WEIGHTS: {
+                    'cls_weight': 1.0,
+                    'bbox_weight': 0.25,
+                    'hm_weight': 1.0,
+                    'code_weights': [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.2, 0.2]
+                }
+            LOSS_CLS:
+                use_sigmoid: True
+                gamma: 2.0
+                alpha: 0.25
+          
+        POST_PROCESSING:
+            SCORE_THRESH: 0.0
+            POST_CENTER_RANGE: [-61.2, -61.2, -10.0, 61.2, 61.2, 10.0]
+
+    POST_PROCESSING:
+        RECALL_THRESH_LIST: [0.3, 0.5, 0.7]
+        SCORE_THRESH: 0.1
+        OUTPUT_RAW_SCORE: False
+        EVAL_METRIC: kitti
+
+
+
+OPTIMIZATION:
+    BATCH_SIZE_PER_GPU: 4
+    NUM_EPOCHS: 20
+
+    OPTIMIZER: adam_onecycle
+    LR: 0.001
+    WEIGHT_DECAY: 0.01
+    MOMENTUM: 0.9
+    BETAS: [0.9, 0.999]
+
+    MOMS: [0.9, 0.8052631]
+    PCT_START: 0.4
+    DIV_FACTOR: 10
+    DECAY_STEP_LIST: [35, 45]
+    LR_DECAY: 0.1
+    LR_CLIP: 0.0000001
+
+    LR_WARMUP: False
+    WARMUP_EPOCH: 1
+
+    GRAD_NORM_CLIP: 35
+
+HOOK:
+    DisableAugmentationHook:
+        DISABLE_AUG_LIST: ['gt_sampling']
+        NUM_LAST_EPOCHS: 5
\ No newline at end of file