update code

e5f6a32a · dengjb · 1189a8ad · e5f6a32a · e5f6a32a · e5f6a32a
Commit e5f6a32a authored Jan 26, 2024 by dengjb
20 changed files
--- a/configs/centernet/centernet_r18_8xb16-crop512-140e_coco.py
+++ b/configs/centernet/centernet_r18_8xb16-crop512-140e_coco.py
+_base_ = './centernet_r18-dcnv2_8xb16-crop512-140e_coco.py'
+model = dict(neck=dict(use_dcn=False))
--- a/configs/centernet/centernet_tta.py
+++ b/configs/centernet/centernet_tta.py
+# This is different from the TTA of official CenterNet.
+tta_model = dict(
+    type='DetTTAModel',
+    tta_cfg=dict(nms=dict(type='nms', iou_threshold=0.5), max_per_img=100))
+tta_pipeline = [
+    dict(type='LoadImageFromFile', to_float32=True, backend_args=None),
+    dict(
+        type='TestTimeAug',
+        transforms=[
+            [
+                # ``RandomFlip`` must be placed before ``RandomCenterCropPad``,
+                # otherwise bounding box coordinates after flipping cannot be
+                # recovered correctly.
+                dict(type='RandomFlip', prob=1.),
+                dict(type='RandomFlip', prob=0.)
+            ],
+            [
+                dict(
+                    type='RandomCenterCropPad',
+                    ratios=None,
+                    border=None,
+                    mean=[0, 0, 0],
+                    std=[1, 1, 1],
+                    to_rgb=True,
+                    test_mode=True,
+                    test_pad_mode=['logical_or', 31],
+                    test_pad_add_pix=1),
+            ],
+            [dict(type='LoadAnnotations', with_bbox=True)],
+            [
+                dict(
+                    type='PackDetInputs',
+                    meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape',
+                               'flip', 'flip_direction', 'border'))
+            ]
+        ])
+]
--- a/configs/centernet/metafile.yml
+++ b/configs/centernet/metafile.yml
+Collections:
+  - Name: CenterNet
+    Metadata:
+      Training Data: COCO
+      Training Techniques:
+        - SGD with Momentum
+        - Weight Decay
+      Training Resources: 8x TITANXP GPUs
+      Architecture:
+        - ResNet
+    Paper:
+      URL: https://arxiv.org/abs/1904.07850
+      Title: 'Objects as Points'
+    README: configs/centernet/README.md
+    Code:
+      URL: https://github.com/open-mmlab/mmdetection/blob/v2.13.0/mmdet/models/detectors/centernet.py#L10
+      Version: v2.13.0
+Models:
+  - Name: centernet_r18-dcnv2_8xb16-crop512-140e_coco
+    In Collection: CenterNet
+    Config: configs/centernet/centernet_r18-dcnv2_8xb16-crop512-140e_coco.py
+    Metadata:
+      Batch Size: 128
+      Training Memory (GB): 3.47
+      Epochs: 140
+    Results:
+      - Task: Object Detection
+        Dataset: COCO
+        Metrics:
+          box AP: 29.5
+    Weights: https://download.openmmlab.com/mmdetection/v2.0/centernet/centernet_resnet18_dcnv2_140e_coco/centernet_resnet18_dcnv2_140e_coco_20210702_155131-c8cd631f.pth
+  - Name: centernet_r18_8xb16-crop512-140e_coco
+    In Collection: CenterNet
+    Config: configs/centernet/centernet_r18_8xb16-crop512-140e_coco.py
+    Metadata:
+      Batch Size: 128
+      Training Memory (GB): 3.45
+      Epochs: 140
+    Results:
+      - Task: Object Detection
+        Dataset: COCO
+        Metrics:
+          box AP: 25.9
+    Weights: https://download.openmmlab.com/mmdetection/v2.0/centernet/centernet_resnet18_140e_coco/centernet_resnet18_140e_coco_20210705_093630-bb5b3bf7.pth
+  - Name: centernet-update_r50-caffe_fpn_ms-1x_coco
+    In Collection: CenterNet
+    Config: configs/centernet/centernet-update_r50-caffe_fpn_ms-1x_coco.py
+    Metadata:
+      Batch Size: 16
+      Training Memory (GB): 3.3
+      Epochs: 12
+    Results:
+      - Task: Object Detection
+        Dataset: COCO
+        Metrics:
+          box AP: 40.2
+    Weights: https://download.openmmlab.com/mmdetection/v3.0/centernet/centernet-update_r50-caffe_fpn_ms-1x_coco/centernet-update_r50-caffe_fpn_ms-1x_coco_20230512_203845-8306baf2.pth
--- a/dataset-index.yml
+++ b/dataset-index.yml
+openxlab: true
+voc2007:
+  dataset: OpenDataLab/PASCAL_VOC2007
+  download_root: data
+  data_root: data
+  script: tools/dataset_converters/scripts/preprocess_voc2007.sh
+voc2012:
+  dataset: OpenDataLab/PASCAL_VOC2012
+  download_root: data
+  data_root: data
+  script: tools/dataset_converters/scripts/preprocess_voc2012.sh
+coco2017:
+  dataset: OpenDataLab/COCO_2017
+  download_root: data
+  data_root: data/coco
+  script: tools/dataset_converters/scripts/preprocess_coco2017.sh
--- a/demo/MMDet_InstanceSeg_Tutorial.ipynb
+++ b/demo/MMDet_InstanceSeg_Tutorial.ipynb
--- a/demo/MMDet_Tutorial.ipynb
+++ b/demo/MMDet_Tutorial.ipynb
--- a/demo/create_result_gif.py
+++ b/demo/create_result_gif.py
+# Copyright (c) OpenMMLab. All rights reserved.
+import argparse
+import os
+import os.path as osp
+import matplotlib.patches as mpatches
+import matplotlib.pyplot as plt
+import mmcv
+import numpy as np
+from mmengine.utils import scandir
+try:
+    import imageio
+except ImportError:
+    imageio = None
+# TODO verify after refactoring analyze_results.py
+def parse_args():
+    parser = argparse.ArgumentParser(description='Create GIF for demo')
+    parser.add_argument(
+        'image_dir',
+        help='directory where result '
+        'images save path generated by ‘analyze_results.py’')
+    parser.add_argument(
+        '--out',
+        type=str,
+        default='result.gif',
+        help='gif path where will be saved')
+    args = parser.parse_args()
+    return args
+def _generate_batch_data(sampler, batch_size):
+    batch = []
+    for idx in sampler:
+        batch.append(idx)
+        if len(batch) == batch_size:
+            yield batch
+            batch = []
+    if len(batch) > 0:
+        yield batch
+def create_gif(frames, gif_name, duration=2):
+    """Create gif through imageio.
+    Args:
+        frames (list[ndarray]): Image frames
+        gif_name (str): Saved gif name
+        duration (int): Display interval (s),
+            Default: 2
+    """
+    if imageio is None:
+        raise RuntimeError('imageio is not installed,'
+                           'Please use “pip install imageio” to install')
+    imageio.mimsave(gif_name, frames, 'GIF', duration=duration)
+def create_frame_by_matplotlib(image_dir,
+                               nrows=1,
+                               fig_size=(300, 300),
+                               font_size=15):
+    """Create gif frame image through matplotlib.
+    Args:
+        image_dir (str): Root directory of result images
+        nrows (int): Number of rows displayed, Default: 1
+        fig_size (tuple): Figure size of the pyplot figure.
+           Default: (300, 300)
+        font_size (int): Font size of texts. Default: 15
+    Returns:
+        list[ndarray]: image frames
+    """
+    result_dir_names = os.listdir(image_dir)
+    assert len(result_dir_names) == 2
+    # Longer length has higher priority
+    result_dir_names.reverse()
+    images_list = []
+    for dir_names in result_dir_names:
+        images_list.append(scandir(osp.join(image_dir, dir_names)))
+    frames = []
+    for paths in _generate_batch_data(zip(*images_list), nrows):
+        fig, axes = plt.subplots(nrows=nrows, ncols=2)
+        fig.suptitle('Good/bad case selected according '
+                     'to the COCO mAP of the single image')
+        det_patch = mpatches.Patch(color='salmon', label='prediction')
+        gt_patch = mpatches.Patch(color='royalblue', label='ground truth')
+        # bbox_to_anchor may need to be finetuned
+        plt.legend(
+            handles=[det_patch, gt_patch],
+            bbox_to_anchor=(1, -0.18),
+            loc='lower right',
+            borderaxespad=0.)
+        if nrows == 1:
+            axes = [axes]
+        dpi = fig.get_dpi()
+        # set fig size and margin
+        fig.set_size_inches(
+            (fig_size[0] * 2 + fig_size[0] // 20) / dpi,
+            (fig_size[1] * nrows + fig_size[1] // 3) / dpi,
+        )
+        fig.tight_layout()
+        # set subplot margin
+        plt.subplots_adjust(
+            hspace=.05,
+            wspace=0.05,
+            left=0.02,
+            right=0.98,
+            bottom=0.02,
+            top=0.98)
+        for i, (path_tuple, ax_tuple) in enumerate(zip(paths, axes)):
+            image_path_left = osp.join(
+                osp.join(image_dir, result_dir_names[0], path_tuple[0]))
+            image_path_right = osp.join(
+                osp.join(image_dir, result_dir_names[1], path_tuple[1]))
+            image_left = mmcv.imread(image_path_left)
+            image_left = mmcv.rgb2bgr(image_left)
+            image_right = mmcv.imread(image_path_right)
+            image_right = mmcv.rgb2bgr(image_right)
+            if i == 0:
+                ax_tuple[0].set_title(
+                    result_dir_names[0], fontdict={'size': font_size})
+                ax_tuple[1].set_title(
+                    result_dir_names[1], fontdict={'size': font_size})
+            ax_tuple[0].imshow(
+                image_left, extent=(0, *fig_size, 0), interpolation='bilinear')
+            ax_tuple[0].axis('off')
+            ax_tuple[1].imshow(
+                image_right,
+                extent=(0, *fig_size, 0),
+                interpolation='bilinear')
+            ax_tuple[1].axis('off')
+        canvas = fig.canvas
+        s, (width, height) = canvas.print_to_buffer()
+        buffer = np.frombuffer(s, dtype='uint8')
+        img_rgba = buffer.reshape(height, width, 4)
+        rgb, alpha = np.split(img_rgba, [3], axis=2)
+        img = rgb.astype('uint8')
+        frames.append(img)
+    return frames
+def main():
+    args = parse_args()
+    frames = create_frame_by_matplotlib(args.image_dir)
+    create_gif(frames, args.out)
+if __name__ == '__main__':
+    main()
--- a/demo/demo.jpg
+++ b/demo/demo.jpg
--- a/demo/demo.mp4
+++ b/demo/demo.mp4
--- a/demo/demo_mot.mp4
+++ b/demo/demo_mot.mp4
--- a/demo/demo_multi_model.py
+++ b/demo/demo_multi_model.py
+# Copyright (c) OpenMMLab. All rights reserved.
+"""Support for multi-model fusion, and currently only the Weighted Box Fusion
+(WBF) fusion method is supported.
+References: https://github.com/ZFTurbo/Weighted-Boxes-Fusion
+Example:
+     python demo/demo_multi_model.py demo/demo.jpg \
+         ./configs/faster_rcnn/faster-rcnn_r50-caffe_fpn_1x_coco.py \
+         ./configs/retinanet/retinanet_r50-caffe_fpn_1x_coco.py \
+         --checkpoints \
+         https://download.openmmlab.com/mmdetection/v2.0/faster_rcnn/faster_rcnn_r50_caffe_fpn_1x_coco/faster_rcnn_r50_caffe_fpn_1x_coco_bbox_mAP-0.378_20200504_180032-c5925ee5.pth \  # noqa
+         https://download.openmmlab.com/mmdetection/v2.0/retinanet/retinanet_r50_caffe_fpn_1x_coco/retinanet_r50_caffe_fpn_1x_coco_20200531-f11027c5.pth \
+         --weights 1 2
+"""
+import argparse
+import os.path as osp
+import mmcv
+import mmengine
+from mmengine.fileio import isdir, join_path, list_dir_or_file
+from mmengine.logging import print_log
+from mmengine.structures import InstanceData
+from mmdet.apis import DetInferencer
+from mmdet.models.utils import weighted_boxes_fusion
+from mmdet.registry import VISUALIZERS
+from mmdet.structures import DetDataSample
+IMG_EXTENSIONS = ('.jpg', '.jpeg', '.png', '.ppm', '.bmp', '.pgm', '.tif',
+                  '.tiff', '.webp')
+def parse_args():
+    parser = argparse.ArgumentParser(
+        description='MMDetection multi-model inference demo')
+    parser.add_argument(
+        'inputs', type=str, help='Input image file or folder path.')
+    parser.add_argument(
+        'config',
+        type=str,
+        nargs='*',
+        help='Config file(s), support receive multiple files')
+    parser.add_argument(
+        '--checkpoints',
+        type=str,
+        nargs='*',
+        help='Checkpoint file(s), support receive multiple files, '
+        'remember to correspond to the above config',
+    )
+    parser.add_argument(
+        '--weights',
+        type=float,
+        nargs='*',
+        default=None,
+        help='weights for each model, remember to '
+        'correspond to the above config')
+    parser.add_argument(
+        '--fusion-iou-thr',
+        type=float,
+        default=0.55,
+        help='IoU value for boxes to be a match in wbf')
+    parser.add_argument(
+        '--skip-box-thr',
+        type=float,
+        default=0.0,
+        help='exclude boxes with score lower than this variable in wbf')
+    parser.add_argument(
+        '--conf-type',
+        type=str,
+        default='avg',  # avg, max, box_and_model_avg, absent_model_aware_avg
+        help='how to calculate confidence in weighted boxes in wbf')
+    parser.add_argument(
+        '--out-dir',
+        type=str,
+        default='outputs',
+        help='Output directory of images or prediction results.')
+    parser.add_argument(
+        '--device', default='cuda:0', help='Device used for inference')
+    parser.add_argument(
+        '--pred-score-thr',
+        type=float,
+        default=0.3,
+        help='bbox score threshold')
+    parser.add_argument(
+        '--batch-size', type=int, default=1, help='Inference batch size.')
+    parser.add_argument(
+        '--show',
+        action='store_true',
+        help='Display the image in a popup window.')
+    parser.add_argument(
+        '--no-save-vis',
+        action='store_true',
+        help='Do not save detection vis results')
+    parser.add_argument(
+        '--no-save-pred',
+        action='store_true',
+        help='Do not save detection json results')
+    parser.add_argument(
+        '--palette',
+        default='none',
+        choices=['coco', 'voc', 'citys', 'random', 'none'],
+        help='Color palette used for visualization')
+    args = parser.parse_args()
+    if args.no_save_vis and args.no_save_pred:
+        args.out_dir = ''
+    return args
+def main():
+    args = parse_args()
+    results = []
+    cfg_visualizer = None
+    dataset_meta = None
+    inputs = []
+    filename_list = []
+    if isdir(args.inputs):
+        dir = list_dir_or_file(
+            args.inputs, list_dir=False, suffix=IMG_EXTENSIONS)
+        for filename in dir:
+            img = mmcv.imread(join_path(args.inputs, filename))
+            inputs.append(img)
+            filename_list.append(filename)
+    else:
+        img = mmcv.imread(args.inputs)
+        inputs.append(img)
+        img_name = osp.basename(args.inputs)
+        filename_list.append(img_name)
+    for i, (config,
+            checkpoint) in enumerate(zip(args.config, args.checkpoints)):
+        inferencer = DetInferencer(
+            config, checkpoint, device=args.device, palette=args.palette)
+        result_raw = inferencer(
+            inputs=inputs,
+            batch_size=args.batch_size,
+            no_save_vis=True,
+            pred_score_thr=args.pred_score_thr)
+        if i == 0:
+            cfg_visualizer = inferencer.cfg.visualizer
+            dataset_meta = inferencer.model.dataset_meta
+            results = [{
+                'bboxes_list': [],
+                'scores_list': [],
+                'labels_list': []
+            } for _ in range(len(result_raw['predictions']))]
+        for res, raw in zip(results, result_raw['predictions']):
+            res['bboxes_list'].append(raw['bboxes'])
+            res['scores_list'].append(raw['scores'])
+            res['labels_list'].append(raw['labels'])
+    visualizer = VISUALIZERS.build(cfg_visualizer)
+    visualizer.dataset_meta = dataset_meta
+    for i in range(len(results)):
+        bboxes, scores, labels = weighted_boxes_fusion(
+            results[i]['bboxes_list'],
+            results[i]['scores_list'],
+            results[i]['labels_list'],
+            weights=args.weights,
+            iou_thr=args.fusion_iou_thr,
+            skip_box_thr=args.skip_box_thr,
+            conf_type=args.conf_type)
+        pred_instances = InstanceData()
+        pred_instances.bboxes = bboxes
+        pred_instances.scores = scores
+        pred_instances.labels = labels
+        fusion_result = DetDataSample(pred_instances=pred_instances)
+        img_name = filename_list[i]
+        if not args.no_save_pred:
+            out_json_path = (
+                args.out_dir + '/preds/' + img_name.split('.')[0] + '.json')
+            mmengine.dump(
+                {
+                    'labels': labels.tolist(),
+                    'scores': scores.tolist(),
+                    'bboxes': bboxes.tolist()
+                }, out_json_path)
+        out_file = osp.join(args.out_dir, 'vis',
+                            img_name) if not args.no_save_vis else None
+        visualizer.add_datasample(
+            img_name,
+            inputs[i][..., ::-1],
+            data_sample=fusion_result,
+            show=args.show,
+            draw_gt=False,
+            wait_time=0,
+            pred_score_thr=args.pred_score_thr,
+            out_file=out_file)
+    if not args.no_save_vis:
+        print_log(f'results have been saved at {args.out_dir}')
+if __name__ == '__main__':
+    main()
--- a/demo/image_demo.py
+++ b/demo/image_demo.py
--- a/demo/inference_demo.ipynb
+++ b/demo/inference_demo.ipynb
--- a/demo/large_image.jpg
+++ b/demo/large_image.jpg
--- a/demo/large_image_demo.py
+++ b/demo/large_image_demo.py
--- a/demo/mot_demo.py
+++ b/demo/mot_demo.py
--- a/demo/video_demo.py
+++ b/demo/video_demo.py
--- a/demo/video_gpuaccel_demo.py
+++ b/demo/video_gpuaccel_demo.py
--- a/demo/webcam_demo.py
+++ b/demo/webcam_demo.py
+# Copyright (c) OpenMMLab. All rights reserved.
+import argparse
+import cv2
+import mmcv
+import torch
+from mmdet.apis import inference_detector, init_detector
+from mmdet.registry import VISUALIZERS
+def parse_args():
+    parser = argparse.ArgumentParser(description='MMDetection webcam demo')
+    parser.add_argument('config', help='test config file path')
+    parser.add_argument('checkpoint', help='checkpoint file')
+    parser.add_argument(
+        '--device', type=str, default='cuda:0', help='CPU/CUDA device option')
+    parser.add_argument(
+        '--camera-id', type=int, default=0, help='camera device id')
+    parser.add_argument(
+        '--score-thr', type=float, default=0.5, help='bbox score threshold')
+    args = parser.parse_args()
+    return args
+def main():
+    args = parse_args()
+    # build the model from a config file and a checkpoint file
+    device = torch.device(args.device)
+    model = init_detector(args.config, args.checkpoint, device=device)
+    # init visualizer
+    visualizer = VISUALIZERS.build(model.cfg.visualizer)
+    # the dataset_meta is loaded from the checkpoint and
+    # then pass to the model in init_detector
+    visualizer.dataset_meta = model.dataset_meta
+    camera = cv2.VideoCapture(args.camera_id)
+    print('Press "Esc", "q" or "Q" to exit.')
+    while True:
+        ret_val, img = camera.read()
+        result = inference_detector(model, img)
+        img = mmcv.imconvert(img, 'bgr', 'rgb')
+        visualizer.add_datasample(
+            name='result',
+            image=img,
+            data_sample=result,
+            draw_gt=False,
+            pred_score_thr=args.score_thr,
+            show=False)
+        img = visualizer.get_image()
+        img = mmcv.imconvert(img, 'bgr', 'rgb')
+        cv2.imshow('result', img)
+        ch = cv2.waitKey(1)
+        if ch == 27 or ch == ord('q') or ch == ord('Q'):
+            break
+if __name__ == '__main__':
+    main()
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
+FROM image.sourcefind.cn:5000/dcu/admin/base/pytorch:1.13.1-centos7.6-dtk-23.04-py38-latest
+RUN source /opt/dtk/env.sh
+RUN pip3 install mmdet==3.2.0 -i https://mirrors.aliyun.com/pypi/simple/