[Fix] Fix example (#1074)

* [Fix] Fix example * rename Net to Model * support training without gpu in example * modify according to comment * replace data path with relative path

[Fix] Fix example (#1074)
* [Fix] Fix example * rename Net to Model * support training without gpu in example * modify according to comment * replace data path with relative path
74626ece · Zaida Zhou · GitHub · 3040299b · 3040299b · 3040299b
Unverified Commit 74626ece authored Jul 20, 2021 by Zaida Zhou Committed by GitHub Jul 20, 2021
6 changed files
--- a/examples/config_cifar10.py
+++ b/examples/config_cifar10.py
-# model settings
-model = 'resnet18'
-# dataset settings
-data_root = '/mnt/SSD/dataset/cifar10'
-mean = [0.4914, 0.4822, 0.4465]
-std = [0.2023, 0.1994, 0.2010]
-batch_size = 64
-
-# optimizer and learning rate
-optimizer = dict(type='SGD', lr=0.1, momentum=0.9, weight_decay=5e-4)
-optimizer_config = dict(grad_clip=None)
-lr_config = dict(policy='step', step=2)
-
-# runtime settings
-work_dir = './demo'
-gpus = range(2)
-dist_params = dict(backend='nccl')
-data_workers = 2  # data workers per gpu
-checkpoint_config = dict(interval=1)  # save checkpoint at every epoch
-workflow = [('train', 1), ('val', 1)]
-total_epochs = 6
-resume_from = None
-load_from = None
-
-# logging settings
-log_level = 'INFO'
-log_config = dict(
-    interval=50,  # log at every 50 iterations
-    hooks=[
-        dict(type='TextLoggerHook'),
-        # dict(type='TensorboardLoggerHook'),
-    ])
--- a/examples/dist_train_cifar10.sh
+++ b/examples/dist_train_cifar10.sh
-#!/usr/bin/env bash
-
-PYTHON=${PYTHON:-"python"}
-
-$PYTHON -m torch.distributed.launch --nproc_per_node=$2 train_cifar10.py $1 --launcher pytorch ${@:3}
--- a/examples/resnet_cifar.py
+++ b/examples/resnet_cifar.py
-# copied from
-# https://github.com/kuangliu/pytorch-cifar/blob/master/models/resnet.py
-
-import torch.nn as nn
-import torch.nn.functional as F
-
-
-class BasicBlock(nn.Module):
-    expansion = 1
-
-    def __init__(self, in_planes, planes, stride=1):
-        super(BasicBlock, self).__init__()
-        self.conv1 = nn.Conv2d(
-            in_planes,
-            planes,
-            kernel_size=3,
-            stride=stride,
-            padding=1,
-            bias=False)
-        self.bn1 = nn.BatchNorm2d(planes)
-        self.conv2 = nn.Conv2d(
-            planes, planes, kernel_size=3, stride=1, padding=1, bias=False)
-        self.bn2 = nn.BatchNorm2d(planes)
-
-        self.shortcut = nn.Sequential()
-        if stride != 1 or in_planes != self.expansion * planes:
-            self.shortcut = nn.Sequential(
-                nn.Conv2d(
-                    in_planes,
-                    self.expansion * planes,
-                    kernel_size=1,
-                    stride=stride,
-                    bias=False), nn.BatchNorm2d(self.expansion * planes))
-
-    def forward(self, x):
-        out = F.relu(self.bn1(self.conv1(x)))
-        out = self.bn2(self.conv2(out))
-        out += self.shortcut(x)
-        out = F.relu(out)
-        return out
-
-
-class Bottleneck(nn.Module):
-    expansion = 4
-
-    def __init__(self, in_planes, planes, stride=1):
-        super(Bottleneck, self).__init__()
-        self.conv1 = nn.Conv2d(in_planes, planes, kernel_size=1, bias=False)
-        self.bn1 = nn.BatchNorm2d(planes)
-        self.conv2 = nn.Conv2d(
-            planes,
-            planes,
-            kernel_size=3,
-            stride=stride,
-            padding=1,
-            bias=False)
-        self.bn2 = nn.BatchNorm2d(planes)
-        self.conv3 = nn.Conv2d(
-            planes, self.expansion * planes, kernel_size=1, bias=False)
-        self.bn3 = nn.BatchNorm2d(self.expansion * planes)
-
-        self.shortcut = nn.Sequential()
-        if stride != 1 or in_planes != self.expansion * planes:
-            self.shortcut = nn.Sequential(
-                nn.Conv2d(
-                    in_planes,
-                    self.expansion * planes,
-                    kernel_size=1,
-                    stride=stride,
-                    bias=False), nn.BatchNorm2d(self.expansion * planes))
-
-    def forward(self, x):
-        out = F.relu(self.bn1(self.conv1(x)))
-        out = F.relu(self.bn2(self.conv2(out)))
-        out = self.bn3(self.conv3(out))
-        out += self.shortcut(x)
-        out = F.relu(out)
-        return out
-
-
-class ResNet(nn.Module):
-
-    def __init__(self, block, num_blocks, num_classes=10):
-        super(ResNet, self).__init__()
-        self.in_planes = 64
-
-        self.conv1 = nn.Conv2d(
-            3, 64, kernel_size=3, stride=1, padding=1, bias=False)
-        self.bn1 = nn.BatchNorm2d(64)
-        self.layer1 = self._make_layer(block, 64, num_blocks[0], stride=1)
-        self.layer2 = self._make_layer(block, 128, num_blocks[1], stride=2)
-        self.layer3 = self._make_layer(block, 256, num_blocks[2], stride=2)
-        self.layer4 = self._make_layer(block, 512, num_blocks[3], stride=2)
-        self.linear = nn.Linear(512 * block.expansion, num_classes)
-
-    def _make_layer(self, block, planes, num_blocks, stride):
-        strides = [stride] + [1] * (num_blocks - 1)
-        layers = []
-        for stride in strides:
-            layers.append(block(self.in_planes, planes, stride))
-            self.in_planes = planes * block.expansion
-        return nn.Sequential(*layers)
-
-    def forward(self, x):
-        out = F.relu(self.bn1(self.conv1(x)))
-        out = self.layer1(out)
-        out = self.layer2(out)
-        out = self.layer3(out)
-        out = self.layer4(out)
-        out = F.avg_pool2d(out, 4)
-        out = out.view(out.size(0), -1)
-        out = self.linear(out)
-        return out
-
-
-def resnet18():
-    return ResNet(BasicBlock, [2, 2, 2, 2])
-
-
-def resnet34():
-    return ResNet(BasicBlock, [3, 4, 6, 3])
-
-
-def resnet50():
-    return ResNet(Bottleneck, [3, 4, 6, 3])
-
-
-def resnet101():
-    return ResNet(Bottleneck, [3, 4, 23, 3])
-
-
-def resnet152():
-    return ResNet(Bottleneck, [3, 8, 36, 3])
--- a/examples/train.py
+++ b/examples/train.py
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.optim as optim
+import torchvision.transforms as transforms
+from torch.utils.data import DataLoader
+from torchvision.datasets import CIFAR10
+
+from mmcv.parallel import MMDataParallel
+from mmcv.runner import EpochBasedRunner
+from mmcv.utils import get_logger
+
+
+class Model(nn.Module):
+
+    def __init__(self):
+        super(Model, self).__init__()
+        self.conv1 = nn.Conv2d(3, 6, 5)
+        self.pool = nn.MaxPool2d(2, 2)
+        self.conv2 = nn.Conv2d(6, 16, 5)
+        self.fc1 = nn.Linear(16 * 5 * 5, 120)
+        self.fc2 = nn.Linear(120, 84)
+        self.fc3 = nn.Linear(84, 10)
+        self.loss_fn = nn.CrossEntropyLoss()
+
+    def forward(self, x):
+        x = self.pool(F.relu(self.conv1(x)))
+        x = self.pool(F.relu(self.conv2(x)))
+        x = x.view(-1, 16 * 5 * 5)
+        x = F.relu(self.fc1(x))
+        x = F.relu(self.fc2(x))
+        x = self.fc3(x)
+        return x
+
+    def train_step(self, data, optimizer):
+        images, labels = data
+        predicts = self(images)  # -> self.__call__() -> self.forward()
+        loss = self.loss_fn(predicts, labels)
+        return {'loss': loss}
+
+
+if __name__ == '__main__':
+    model = Model()
+    if torch.cuda.is_available():
+        model = MMDataParallel(model.cuda())
+
+    # dataset and dataloader
+    transform = transforms.Compose([
+        transforms.ToTensor(),
+        transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
+    ])
+    trainset = CIFAR10(
+        root='data', train=True, download=True, transform=transform)
+    trainloader = DataLoader(
+        trainset, batch_size=128, shuffle=True, num_workers=2)
+
+    optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
+    logger = get_logger('mmcv')
+    # runner is a scheduler to manage the training
+    runner = EpochBasedRunner(
+        model,
+        optimizer=optimizer,
+        work_dir='./work_dir',
+        logger=logger,
+        max_epochs=4)
+
+    # learning rate scheduler config
+    lr_config = dict(policy='step', step=[2, 3])
+    # configuration of optimizer
+    optimizer_config = dict(grad_clip=None)
+    # configuration of saving checkpoints periodically
+    checkpoint_config = dict(interval=1)
+    # save log periodically and multiple hooks can be used simultaneously
+    log_config = dict(interval=100, hooks=[dict(type='TextLoggerHook')])
+    # register hooks to runner and those hooks will be invoked automatically
+    runner.register_training_hooks(
+        lr_config=lr_config,
+        optimizer_config=optimizer_config,
+        checkpoint_config=checkpoint_config,
+        log_config=log_config)
+
+    runner.run([trainloader], [('train', 1)])
--- a/examples/train_cifar10.py
+++ b/examples/train_cifar10.py
-import logging
-import os
-from argparse import ArgumentParser
-from collections import OrderedDict
-
-import resnet_cifar
-import torch
-import torch.distributed as dist
-import torch.multiprocessing as mp
-import torch.nn.functional as F
-from torch.nn.parallel import DataParallel, DistributedDataParallel
-from torch.utils.data import DataLoader
-from torch.utils.data.distributed import DistributedSampler
-from torchvision import datasets, transforms
-
-from mmcv import Config
-from mmcv.runner import DistSamplerSeedHook, Runner
-
-
-def accuracy(output, target, topk=(1, )):
-    """Computes the precision@k for the specified values of k."""
-    with torch.no_grad():
-        maxk = max(topk)
-        batch_size = target.size(0)
-
-        _, pred = output.topk(maxk, 1, True, True)
-        pred = pred.t()
-        correct = pred.eq(target.view(1, -1).expand_as(pred))
-
-        res = []
-        for k in topk:
-            correct_k = correct[:k].view(-1).float().sum(0, keepdim=True)
-            res.append(correct_k.mul_(100.0 / batch_size))
-        return res
-
-
-def batch_processor(model, data, train_mode):
-    img, label = data
-    label = label.cuda(non_blocking=True)
-    pred = model(img)
-    loss = F.cross_entropy(pred, label)
-    acc_top1, acc_top5 = accuracy(pred, label, topk=(1, 5))
-    log_vars = OrderedDict()
-    log_vars['loss'] = loss.item()
-    log_vars['acc_top1'] = acc_top1.item()
-    log_vars['acc_top5'] = acc_top5.item()
-    outputs = dict(loss=loss, log_vars=log_vars, num_samples=img.size(0))
-    return outputs
-
-
-def get_logger(log_level):
-    logging.basicConfig(
-        format='%(asctime)s - %(levelname)s - %(message)s', level=log_level)
-    logger = logging.getLogger()
-    return logger
-
-
-def init_dist(backend='nccl', **kwargs):
-    if mp.get_start_method(allow_none=True) is None:
-        mp.set_start_method('spawn')
-    rank = int(os.environ['RANK'])
-    num_gpus = torch.cuda.device_count()
-    torch.cuda.set_device(rank % num_gpus)
-    dist.init_process_group(backend=backend, **kwargs)
-
-
-def parse_args():
-    parser = ArgumentParser(description='Train CIFAR-10 classification')
-    parser.add_argument('config', help='train config file path')
-    parser.add_argument(
-        '--launcher',
-        choices=['none', 'pytorch'],
-        default='none',
-        help='job launcher')
-    parser.add_argument('--local_rank', type=int, default=0)
-    return parser.parse_args()
-
-
-def main():
-    args = parse_args()
-
-    cfg = Config.fromfile(args.config)
-
-    logger = get_logger(cfg.log_level)
-
-    # init distributed environment if necessary
-    if args.launcher == 'none':
-        dist = False
-        logger.info('Disabled distributed training.')
-    else:
-        dist = True
-        init_dist(**cfg.dist_params)
-        world_size = torch.distributed.get_world_size()
-        rank = torch.distributed.get_rank()
-        if rank != 0:
-            logger.setLevel('ERROR')
-        logger.info('Enabled distributed training.')
-
-    # build datasets and dataloaders
-    normalize = transforms.Normalize(mean=cfg.mean, std=cfg.std)
-    train_dataset = datasets.CIFAR10(
-        root=cfg.data_root,
-        train=True,
-        transform=transforms.Compose([
-            transforms.RandomCrop(32, padding=4),
-            transforms.RandomHorizontalFlip(),
-            transforms.ToTensor(),
-            normalize,
-        ]))
-    val_dataset = datasets.CIFAR10(
-        root=cfg.data_root,
-        train=False,
-        transform=transforms.Compose([
-            transforms.ToTensor(),
-            normalize,
-        ]))
-    if dist:
-        num_workers = cfg.data_workers
-        assert cfg.batch_size % world_size == 0
-        batch_size = cfg.batch_size // world_size
-        train_sampler = DistributedSampler(train_dataset, world_size, rank)
-        val_sampler = DistributedSampler(val_dataset, world_size, rank)
-        shuffle = False
-    else:
-        num_workers = cfg.data_workers * len(cfg.gpus)
-        batch_size = cfg.batch_size
-        train_sampler = None
-        val_sampler = None
-        shuffle = True
-    train_loader = DataLoader(
-        train_dataset,
-        batch_size=batch_size,
-        shuffle=shuffle,
-        sampler=train_sampler,
-        num_workers=num_workers)
-    val_loader = DataLoader(
-        val_dataset,
-        batch_size=batch_size,
-        shuffle=False,
-        sampler=val_sampler,
-        num_workers=num_workers)
-
-    # build model
-    model = getattr(resnet_cifar, cfg.model)()
-    if dist:
-        model = DistributedDataParallel(
-            model.cuda(), device_ids=[torch.cuda.current_device()])
-    else:
-        model = DataParallel(model, device_ids=cfg.gpus).cuda()
-
-    # build runner and register hooks
-    runner = Runner(
-        model,
-        batch_processor,
-        cfg.optimizer,
-        cfg.work_dir,
-        log_level=cfg.log_level)
-    runner.register_training_hooks(
-        lr_config=cfg.lr_config,
-        optimizer_config=cfg.optimizer_config,
-        checkpoint_config=cfg.checkpoint_config,
-        log_config=cfg.log_config,
-        custom_hooks_config=cfg.get('custom_train_hooks', None))
-    if dist:
-        runner.register_hook(DistSamplerSeedHook())
-
-    # load param (if necessary) and run
-    if cfg.get('resume_from') is not None:
-        runner.resume(cfg.resume_from)
-    elif cfg.get('load_from') is not None:
-        runner.load_checkpoint(cfg.load_from)
-
-    runner.run([train_loader, val_loader], cfg.workflow, cfg.total_epochs)
-
-
-if __name__ == '__main__':
-    main()
--- a/setup.cfg
+++ b/setup.cfg
@@ -14,6 +14,6 @@ line_length = 79
 multi_line_output = 0
 known_standard_library = pkg_resources,setuptools,logging,os,warnings,abc
 known_first_party = mmcv
-known_third_party = addict,cv2,m2r,numpy,onnx,onnxruntime,packaging,pytest,recommonmark,resnet_cifar,scipy,tensorrt,torch,torchvision,yaml,yapf
+known_third_party = addict,cv2,m2r,numpy,onnx,onnxruntime,packaging,pytest,recommonmark,scipy,tensorrt,torch,torchvision,yaml,yapf
 no_lines_before = STDLIB,LOCALFOLDER
 default_section = THIRDPARTY