add new model

0d97cc8c · Sugon_ldc · 0d97cc8c · 0d97cc8c · 0d97cc8c · 0d97cc8c
Commit 0d97cc8c authored Jun 07, 2023 by Sugon_ldc
20 changed files
--- a/configs/_base_/coco_stuff.yml
+++ b/configs/_base_/coco_stuff.yml
+batch_size: 4
+iters: 80000
+
+train_dataset:
+  type: CocoStuff
+  dataset_root: data/cocostuff/
+  transforms:
+    - type: ResizeStepScaling
+      min_scale_factor: 0.5
+      max_scale_factor: 2.0
+      scale_step_size: 0.25
+    - type: RandomPaddingCrop
+      crop_size: [520, 520]
+    - type: RandomHorizontalFlip
+    - type: RandomDistort
+      brightness_range: 0.4
+      contrast_range: 0.4
+      saturation_range: 0.4
+    - type: Normalize
+  mode: train
+
+val_dataset:
+  type: CocoStuff
+  dataset_root: data/cocostuff/
+  transforms:
+    - type: Normalize
+  mode: val
+
+
+optimizer:
+  type: sgd
+  momentum: 0.9
+  weight_decay: 4.0e-5
+
+lr_scheduler:
+  type: PolynomialDecay
+  learning_rate: 0.01
+  end_lr: 0
+  power: 0.9
+
+loss:
+  types:
+    - type: CrossEntropyLoss
+  coef: [1]
--- a/configs/_base_/drive.yml
+++ b/configs/_base_/drive.yml
+batch_size: 16
+iters: 40000
+
+train_dataset:
+  type: DRIVE
+  dataset_root: data/DRIVE
+  transforms:
+    - type: ResizeStepScaling
+      min_scale_factor: 0.5
+      max_scale_factor: 2.0
+      scale_step_size: 0.25
+    - type: RandomPaddingCrop
+      crop_size: [128, 128]
+    - type: RandomHorizontalFlip
+    - type: RandomVerticalFlip
+    - type: RandomDistort
+      brightness_range: 0.4
+      contrast_range: 0.4
+      saturation_range: 0.4
+    - type: Normalize
+  mode: train
+
+val_dataset:
+  type: DRIVE
+  dataset_root: data/DRIVE
+  transforms:
+    - type: Normalize
+  mode: val
+
+
+optimizer:
+  type: sgd
+  momentum: 0.9
+  weight_decay: 4.0e-5
+
+lr_scheduler:
+  type: PolynomialDecay
+  learning_rate: 0.01
+  end_lr: 0
+  power: 0.9
+
+
+loss:
+  types:
+    - type: DiceLoss
+  coef: [1]
+
+test_config:
+  auc_roc: True
--- a/configs/_base_/hrf.yml
+++ b/configs/_base_/hrf.yml
+batch_size: 16
+iters: 40000
+
+train_dataset:
+  type: HRF
+  dataset_root: data/HRF
+  transforms:
+    - type: ResizeStepScaling
+      min_scale_factor: 0.5
+      max_scale_factor: 2.0
+      scale_step_size: 0.25
+    - type: RandomPaddingCrop
+      crop_size: [256, 256]
+    - type: RandomHorizontalFlip
+    - type: RandomVerticalFlip
+    - type: RandomDistort
+      brightness_range: 0.4
+      contrast_range: 0.4
+      saturation_range: 0.4
+    - type: Normalize
+  mode: train
+
+val_dataset:
+  type: HRF
+  dataset_root: data/HRF
+  transforms:
+    - type: ResizeByLong
+      long_size: 1280
+    - type: Normalize
+  mode: val
+
+
+optimizer:
+  type: sgd
+  momentum: 0.9
+  weight_decay: 4.0e-5
+
+lr_scheduler:
+  type: PolynomialDecay
+  learning_rate: 0.01
+  end_lr: 0
+  power: 0.9
+
+loss:
+  types:
+    - type: DiceLoss
+  coef: [1]
+
+test_config:
+  auc_roc: True
--- a/configs/_base_/pascal_context.yml
+++ b/configs/_base_/pascal_context.yml
+batch_size: 4
+iters: 40000
+
+train_dataset:
+  type: PascalContext
+  dataset_root: data/VOC2010/
+  transforms:
+    - type: ResizeStepScaling
+      min_scale_factor: 0.5
+      max_scale_factor: 2.0
+      scale_step_size: 0.25
+    - type: RandomPaddingCrop
+      crop_size: [520, 520]
+    - type: RandomHorizontalFlip
+    - type: RandomDistort
+      brightness_range: 0.4
+      contrast_range: 0.4
+      saturation_range: 0.4
+    - type: Normalize
+  mode: train
+
+val_dataset:
+  type: PascalContext
+  dataset_root: data/VOC2010/
+  transforms:
+    - type: Padding
+      target_size: [520, 520]
+    - type: Normalize
+  mode: val
+
+
+optimizer:
+  type: sgd
+  momentum: 0.9
+  weight_decay: 4.0e-5
+
+lr_scheduler:
+  type: PolynomialDecay
+  learning_rate: 0.001
+  end_lr: 0
+  power: 0.9
+
+loss:
+  types:
+    - type: CrossEntropyLoss
+  coef: [1]
--- a/configs/_base_/pascal_voc12.yml
+++ b/configs/_base_/pascal_voc12.yml
+batch_size: 4
+iters: 40000
+
+train_dataset:
+  type: PascalVOC
+  dataset_root: data/VOCdevkit/
+  transforms:
+    - type: ResizeStepScaling
+      min_scale_factor: 0.5
+      max_scale_factor: 2.0
+      scale_step_size: 0.25
+    - type: RandomPaddingCrop
+      crop_size: [512, 512]
+    - type: RandomHorizontalFlip
+    - type: RandomDistort
+      brightness_range: 0.4
+      contrast_range: 0.4
+      saturation_range: 0.4
+    - type: Normalize
+  mode: train
+
+val_dataset:
+  type: PascalVOC
+  dataset_root: data/VOCdevkit/
+  transforms:
+    - type: Padding
+      target_size: [512, 512]
+    - type: Normalize
+  mode: val
+
+
+optimizer:
+  type: sgd
+  momentum: 0.9
+  weight_decay: 4.0e-5
+
+lr_scheduler:
+  type: PolynomialDecay
+  learning_rate: 0.01
+  end_lr: 0
+  power: 0.9
+
+loss:
+  types:
+    - type: CrossEntropyLoss
+  coef: [1]
--- a/configs/_base_/pascal_voc12aug.yml
+++ b/configs/_base_/pascal_voc12aug.yml
+_base_: './pascal_voc12.yml'
+
+train_dataset:
+  mode: trainaug
--- a/configs/_base_/stare.yml
+++ b/configs/_base_/stare.yml
+batch_size: 16
+iters: 40000
+
+train_dataset:
+  type: STARE
+  dataset_root: data/STARE
+  transforms:
+    - type: ResizeStepScaling
+      min_scale_factor: 0.5
+      max_scale_factor: 2.0
+      scale_step_size: 0.25
+    - type: RandomPaddingCrop
+      crop_size: [128, 128]
+    - type: RandomHorizontalFlip
+    - type: RandomVerticalFlip
+    - type: RandomDistort
+      brightness_range: 0.4
+      contrast_range: 0.4
+      saturation_range: 0.4
+    - type: Normalize
+  mode: train
+
+val_dataset:
+  type: STARE
+  dataset_root: data/STARE
+  transforms:
+    - type: Normalize
+  mode: val
+
+optimizer:
+  type: sgd
+  momentum: 0.9
+  weight_decay: 4.0e-5
+
+lr_scheduler:
+  type: PolynomialDecay
+  learning_rate: 0.01
+  end_lr: 0
+  power: 0.9
+
+loss:
+  types:
+    - type: DiceLoss
+  coef: [1]
+
+test_config:
+  auc_roc: True
--- a/configs/ann/README.md
+++ b/configs/ann/README.md
+# Asymmetric Non-local Neural Networks for Semantic Segmentation
+
+## Reference
+
+> Zhu, Zhen, Mengde Xu, Song Bai, Tengteng Huang, and Xiang Bai. "Asymmetric non-local neural networks for semantic segmentation." In Proceedings of the IEEE International Conference on Computer Vision, pp. 593-602. 2019.
+
+## Performance
+
+### Cityscapes
+
+| Model | Backbone | Resolution | Training Iters | mIoU | mIoU (flip) | mIoU (ms+flip) | Links |
+|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
+|ANN|ResNet50_OS8|1024x512|80000|79.09%|79.31%|79.56%|[model](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/ann_resnet50_os8_cityscapes_1024x512_80k/model.pdparams) \| [log](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/ann_resnet50_os8_cityscapes_1024x512_80k/train.log) \| [vdl](https://paddlepaddle.org.cn/paddle/visualdl/service/app?id=b849c8e06b6ccd33514d436635b9e102)|
+|ANN|ResNet101_OS8|1024x512|80000|80.61%|80.98%|81.25%|[model](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/ann_resnet101_os8_cityscapes_1024x512_80k/model.pdparams) \| [log](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/ann_resnet101_os8_cityscapes_1024x512_80k/train.log) \| [vdl](https://paddlepaddle.org.cn/paddle/visualdl/service/app?id=ed1cb9321385f1480dda418db71bd4c0)|
+
+### Pascal VOC 2012 + Aug
+
+| Model | Backbone | Resolution | Training Iters | mIoU | mIoU (flip) | mIoU (ms+flip) | Links |
+|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
+|ANN|ResNet50_OS8|512x512|40000|80.82%|81.10%|81.42%|[model](https://bj.bcebos.com/paddleseg/dygraph/pascal_voc12/ann_resnet50_os8_voc12aug_512x512_40k/model.pdparams) \| [log](https://bj.bcebos.com/paddleseg/dygraph/pascal_voc12/ann_resnet50_os8_voc12aug_512x512_40k/train.log) \| [vdl](https://paddlepaddle.org.cn/paddle/visualdl/service/app?id=3a5e7bc1b44c3f552f73bdbe569e5a76)|
+|ANN|ResNet101_OS8|512x512|40000|79.62%|79.84%|80.05%|[model](https://bj.bcebos.com/paddleseg/dygraph/pascal_voc12/ann_resnet101_os8_voc12aug_512x512_40k/model.pdparams) \| [log](https://bj.bcebos.com/paddleseg/dygraph/pascal_voc12/ann_resnet101_os8_voc12aug_512x512_40k/train.log) \| [vdl](https://paddlepaddle.org.cn/paddle/visualdl/service/app?id=02c57c64c72cf87cf3b3d5b2373399a0)|
--- a/configs/ann/ann_resnet101_os8_cityscapes_1024x512_80k.yml
+++ b/configs/ann/ann_resnet101_os8_cityscapes_1024x512_80k.yml
+_base_: 'ann_resnet50_os8_cityscapes_1024x512_80k.yml'
+
+model:
+  backbone:
+    type: ResNet101_vd
+    pretrained: https://bj.bcebos.com/paddleseg/dygraph/resnet101_vd_ssld.tar.gz
--- a/configs/ann/ann_resnet101_os8_voc12aug_512x512_40k.yml
+++ b/configs/ann/ann_resnet101_os8_voc12aug_512x512_40k.yml
+_base_: 'ann_resnet50_os8_voc12aug_512x512_40k.yml'
+
+model:
+  backbone:
+    type: ResNet101_vd
+    pretrained: https://bj.bcebos.com/paddleseg/dygraph/resnet101_vd_ssld.tar.gz
--- a/configs/ann/ann_resnet50_os8_cityscapes_1024x512_80k.yml
+++ b/configs/ann/ann_resnet50_os8_cityscapes_1024x512_80k.yml
+_base_: '../_base_/cityscapes.yml'
+
+batch_size: 2
+iters: 80000
+
+lr_scheduler:
+  type: PolynomialDecay
+  learning_rate: 0.01
+  power: 0.9
+  end_lr: 1.0e-5
+
+loss:
+  types:
+    - type: CrossEntropyLoss
+  coef: [1, 0.4]
+
+model:
+  type: ANN
+  backbone:
+    type: ResNet50_vd
+    output_stride: 8
+    pretrained: https://bj.bcebos.com/paddleseg/dygraph/resnet50_vd_ssld_v2.tar.gz
+  backbone_indices: [2, 3]
+  key_value_channels: 256
+  inter_channels: 512
+  psp_size: [1, 3, 6, 8]
+  enable_auxiliary_loss: True
+  align_corners: False
+  pretrained: null
--- a/configs/ann/ann_resnet50_os8_voc12aug_512x512_40k.yml
+++ b/configs/ann/ann_resnet50_os8_voc12aug_512x512_40k.yml
+_base_: '../_base_/pascal_voc12aug.yml'
+
+loss:
+  types:
+    - type: CrossEntropyLoss
+  coef: [1, 0.4]
+
+model:
+  type: ANN
+  backbone:
+    type: ResNet50_vd
+    output_stride: 8
+    pretrained: https://bj.bcebos.com/paddleseg/dygraph/resnet50_vd_ssld_v2.tar.gz
+  backbone_indices: [2, 3]
+  key_value_channels: 256
+  inter_channels: 512
+  psp_size: [1, 3, 6, 8]
+  enable_auxiliary_loss: True
+  align_corners: False
+  pretrained: null
--- a/configs/attention_unet/README.md
+++ b/configs/attention_unet/README.md
+# Attention U-Net: Learning Where to Look for the Pancreas
+
+## Reference
+
+> Oktay, Ozan, Jo Schlemper, Loic Le Folgoc, Matthew Lee, Mattias Heinrich, Kazunari Misawa, Kensaku Mori et al. "Attention u-net: Learning where to look for the pancreas." arXiv preprint arXiv:1804.03999 (2018).
--- a/configs/attention_unet/attention_unet_cityscapes_1024x512_80k.yml
+++ b/configs/attention_unet/attention_unet_cityscapes_1024x512_80k.yml
+_base_: '../_base_/cityscapes.yml'
+
+batch_size: 2
+iters: 80000
+
+lr_scheduler:
+  type: PolynomialDecay
+  learning_rate: 0.05
+  end_lr: 0.0
+  power: 0.9
+
+model:
+  type: AttentionUNet
+  pretrained: Null
--- a/configs/bisenet/README.md
+++ b/configs/bisenet/README.md
+# BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation
+
+## Reference
+
+> Yu, Changqian, Changxin Gao, Jingbo Wang, Gang Yu, Chunhua Shen, and Nong Sang. "BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation." arXiv preprint arXiv:2004.02147 (2020).
+
+## Performance
+
+### Cityscapes
+
+| Model | Backbone | Resolution | Training Iters | mIoU | mIoU (flip) | mIoU (ms+flip) | Links |
+|-|-|-|-|-|-|-|-|
+|BiSeNetv2|-|1024x1024|160000|73.19%|74.19%|74.43%|[model](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/bisenetv1_resnet18_os8_cityscapes_1024x512_160k/model.pdparams) \| [log](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/bisenetv1_resnet18_os8_cityscapes_1024x512_160k/train.log) \| [vdl](https://paddlepaddle.org.cn/paddle/visualdl/service/app?id=3ccfaff613de769eadb76f8379afffa5)|
--- a/configs/bisenet/bisenet_cityscapes_1024x1024_160k.yml
+++ b/configs/bisenet/bisenet_cityscapes_1024x1024_160k.yml
+_base_: '../_base_/cityscapes_1024x1024.yml'
+
+model:
+  type: BiSeNetV2
+  num_classes: 19
+
+optimizer:
+  type: sgd
+  weight_decay: 0.0005
+
+loss:
+  types:
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+    - type: CrossEntropyLoss
+  coef: [1, 1, 1, 1, 1]
+
+batch_size: 4
+iters: 160000
+
+lr_scheduler:
+  type: PolynomialDecay
+  learning_rate: 0.05
+  end_lr: 0.0
+  power: 0.9
--- a/configs/bisenetv1/README.md
+++ b/configs/bisenetv1/README.md
+# BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation
+
+## Reference
+
+> Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, and Nong Sang. "BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation." In Proceedings of the European conference on computer vision (ECCV), pp. 325-341. 2018.
+
+## Performance
+
+### Cityscapes
+
+| Model | Backbone | Resolution | Training Iters | mIoU | mIoU (flip) | mIoU (ms+flip) | Links |
+|-|-|-|-|-|-|-|-|
+|BiSeNetV1|-|1024x512|160000|75.19%|75.99%|76.77%|[model](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/bisenetv1_cityscapes_1024x512_160k/model.pdparams)\|[log](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/bisenetv1_cityscapes_1024x512_160k/train.log)\|[vdl](https://www.paddlepaddle.org.cn/paddle/visualdl/service/app/scalar?id=d2807bd39677b369ee84054e46a3df96)|
--- a/configs/bisenetv1/bisenetv1_resnet18_os8_cityscapes_1024x512_160k.yml
+++ b/configs/bisenetv1/bisenetv1_resnet18_os8_cityscapes_1024x512_160k.yml
+_base_: '../_base_/cityscapes.yml'
+
+batch_size: 4
+iters: 160000
+
+model:
+  type: BiseNetV1
+  backbone:
+    type: ResNet18_vd
+    output_stride: 8
+    pretrained: https://bj.bcebos.com/paddleseg/dygraph/resnet18_vd_ssld_v2.tar.gz
+
+optimizer:
+  type: sgd
+  weight_decay: 0.0005
+
+loss:
+  types:
+    - type: OhemCrossEntropyLoss
+    - type: OhemCrossEntropyLoss
+    - type: OhemCrossEntropyLoss
+  coef: [1, 1, 1]
+
+lr_scheduler:
+  type: PolynomialDecay
+  learning_rate: 0.01
+  end_lr: 0.0
+  power: 0.9
--- a/configs/ccnet/README.md
+++ b/configs/ccnet/README.md
+# CCNet: Criss-cross attention for semantic segmentation
+
+## Reference
+
+> Zilong Huang, Xinggang Wang, Yunchao Wei, Lichao Huang, Humphrey Shi, Wenyu Liu, Thomas S. Huang. "CCNet: Criss-cross attention for semantic segmentation." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
+
+## Performance
+
+### Cityscapes
+
+| Model | Backbone | Resolution | Training Iters | mIoU | mIoU (flip) | mIoU (ms+flip) | Links |
+|-|-|-|-|-|-|-|-|
+|CCNet|ResNet101_OS8|769x769|60000|80.95%|81.23%|81.32%|[model](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/ccnet_resnet101_os8_cityscapes_769x769_60k/model.pdparams)\|[log](https://bj.bcebos.com/paddleseg/dygraph/cityscapes/ccnet_resnet101_os8_cityscapes_769x769_60k/train.log)\|[vdl](https://paddlepaddle.org.cn/paddle/visualdl/service/app?id=6828616e27a1e15f1442beb3b4834048)|
--- a/configs/ccnet/ccnet_resnet101_os8_cityscapes_769x769_60k.yml
+++ b/configs/ccnet/ccnet_resnet101_os8_cityscapes_769x769_60k.yml
+_base_: '../_base_/cityscapes_769x769.yml'
+
+batch_size: 2
+iters: 60000
+
+model:
+  type: CCNet
+  backbone:
+    type: ResNet101_vd
+    output_stride: 8
+    pretrained: https://bj.bcebos.com/paddleseg/dygraph/resnet101_vd_ssld.tar.gz
+  backbone_indices: [2, 3]
+  enable_auxiliary_loss: True
+  dropout_prob: 0.1
+  recurrence: 2
+  
+loss:
+  types:
+    - type: OhemCrossEntropyLoss
+    - type: CrossEntropyLoss
+  coef: [1, 0.4]
+  
+lr_scheduler:
+  type: PolynomialDecay
+  learning_rate: 0.01
+  power: 0.9
+  end_lr: 1.0e-4