Adding min_size to classification and video models (#5223)

* Adding min_size as a required field. * Adding min_size to classification models (quantized and not) * Adding min_size to video models meta. * Moving min_size to _COMMON_META * Fixing extra line Co-authored-by: Vasilis Vryniotis <datumbox@users.noreply.github.com>

Adding min_size to classification and video models (#5223)
* Adding min_size as a required field. * Adding min_size to classification models (quantized and not) * Adding min_size to video models meta. * Moving min_size to _COMMON_META * Fixing extra line Co-authored-by: Vasilis Vryniotis <datumbox@users.noreply.github.com>
c27bed45 · Fedor · GitHub · e047623a · c27bed45 · c27bed45
Unverified Commit c27bed45 authored Jan 20, 2022 by Fedor Committed by GitHub Jan 20, 2022
20 changed files
--- a/test/test_prototype_models.py
+++ b/test/test_prototype_models.py
@@ -97,7 +97,7 @@ def test_naming_conventions(model_fn):
 )
 @run_if_test_with_prototype
 def test_schema_meta_validation(model_fn):
-    classification_fields = ["size", "categories", "acc@1", "acc@5"]
+    classification_fields = ["size", "categories", "acc@1", "acc@5", "min_size"]
    defaults = {
        "all": ["task", "architecture", "publication_year", "interpolation", "recipe", "num_params"],
        "models": classification_fields,

--- a/torchvision/prototype/models/alexnet.py
+++ b/torchvision/prototype/models/alexnet.py
@@ -23,6 +23,7 @@ class AlexNet_Weights(WeightsEnum):
            "publication_year": 2012,
            "num_params": 61100840,
            "size": (224, 224),
+            "min_size": (63, 63),
            "categories": _IMAGENET_CATEGORIES,
            "interpolation": InterpolationMode.BILINEAR,
            "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#alexnet-and-vgg",

--- a/torchvision/prototype/models/densenet.py
+++ b/torchvision/prototype/models/densenet.py
@@ -68,6 +68,7 @@ _COMMON_META = {
    "architecture": "DenseNet",
    "publication_year": 2016,
    "size": (224, 224),
+    "min_size": (29, 29),
    "categories": _IMAGENET_CATEGORIES,
    "interpolation": InterpolationMode.BILINEAR,
    "recipe": "https://github.com/pytorch/vision/pull/116",

--- a/torchvision/prototype/models/efficientnet.py
+++ b/torchvision/prototype/models/efficientnet.py
@@ -66,6 +66,7 @@ _COMMON_META = {
    "task": "image_classification",
    "architecture": "EfficientNet",
    "publication_year": 2019,
+    "min_size": (1, 1),
    "categories": _IMAGENET_CATEGORIES,
    "interpolation": InterpolationMode.BICUBIC,
    "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#efficientnet",

--- a/torchvision/prototype/models/googlenet.py
+++ b/torchvision/prototype/models/googlenet.py
@@ -24,6 +24,7 @@ class GoogLeNet_Weights(WeightsEnum):
            "publication_year": 2014,
            "num_params": 6624904,
            "size": (224, 224),
+            "min_size": (15, 15),
            "categories": _IMAGENET_CATEGORIES,
            "interpolation": InterpolationMode.BILINEAR,
            "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#googlenet",

--- a/torchvision/prototype/models/inception.py
+++ b/torchvision/prototype/models/inception.py
@@ -23,6 +23,7 @@ class Inception_V3_Weights(WeightsEnum):
            "publication_year": 2015,
            "num_params": 27161264,
            "size": (299, 299),
+            "min_size": (75, 75),
            "categories": _IMAGENET_CATEGORIES,
            "interpolation": InterpolationMode.BILINEAR,
            "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#inception-v3",

--- a/torchvision/prototype/models/mnasnet.py
+++ b/torchvision/prototype/models/mnasnet.py
@@ -28,6 +28,7 @@ _COMMON_META = {
    "architecture": "MNASNet",
    "publication_year": 2018,
    "size": (224, 224),
+    "min_size": (1, 1),
    "categories": _IMAGENET_CATEGORIES,
    "interpolation": InterpolationMode.BILINEAR,
    "recipe": "https://github.com/1e100/mnasnet_trainer",

--- a/torchvision/prototype/models/mobilenetv2.py
+++ b/torchvision/prototype/models/mobilenetv2.py
@@ -23,6 +23,7 @@ class MobileNet_V2_Weights(WeightsEnum):
            "publication_year": 2018,
            "num_params": 3504872,
            "size": (224, 224),
+            "min_size": (1, 1),
            "categories": _IMAGENET_CATEGORIES,
            "interpolation": InterpolationMode.BILINEAR,
            "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#mobilenetv2",

--- a/torchvision/prototype/models/mobilenetv3.py
+++ b/torchvision/prototype/models/mobilenetv3.py
@@ -42,6 +42,7 @@ _COMMON_META = {
    "architecture": "MobileNetV3",
    "publication_year": 2019,
    "size": (224, 224),
+    "min_size": (1, 1),
    "categories": _IMAGENET_CATEGORIES,
    "interpolation": InterpolationMode.BILINEAR,
 }

--- a/torchvision/prototype/models/quantization/googlenet.py
+++ b/torchvision/prototype/models/quantization/googlenet.py
@@ -33,6 +33,7 @@ class GoogLeNet_QuantizedWeights(WeightsEnum):
            "publication_year": 2014,
            "num_params": 6624904,
            "size": (224, 224),
+            "min_size": (15, 15),
            "categories": _IMAGENET_CATEGORIES,
            "interpolation": InterpolationMode.BILINEAR,
            "backend": "fbgemm",

--- a/torchvision/prototype/models/quantization/inception.py
+++ b/torchvision/prototype/models/quantization/inception.py
@@ -32,6 +32,7 @@ class Inception_V3_QuantizedWeights(WeightsEnum):
            "publication_year": 2015,
            "num_params": 27161264,
            "size": (299, 299),
+            "min_size": (75, 75),
            "categories": _IMAGENET_CATEGORIES,
            "interpolation": InterpolationMode.BILINEAR,
            "backend": "fbgemm",

--- a/torchvision/prototype/models/quantization/mobilenetv2.py
+++ b/torchvision/prototype/models/quantization/mobilenetv2.py
@@ -33,6 +33,7 @@ class MobileNet_V2_QuantizedWeights(WeightsEnum):
            "publication_year": 2018,
            "num_params": 3504872,
            "size": (224, 224),
+            "min_size": (1, 1),
            "categories": _IMAGENET_CATEGORIES,
            "interpolation": InterpolationMode.BILINEAR,
            "backend": "qnnpack",

--- a/torchvision/prototype/models/quantization/mobilenetv3.py
+++ b/torchvision/prototype/models/quantization/mobilenetv3.py
@@ -66,6 +66,7 @@ class MobileNet_V3_Large_QuantizedWeights(WeightsEnum):
            "publication_year": 2019,
            "num_params": 5483032,
            "size": (224, 224),
+            "min_size": (1, 1),
            "categories": _IMAGENET_CATEGORIES,
            "interpolation": InterpolationMode.BILINEAR,
            "backend": "qnnpack",

--- a/torchvision/prototype/models/quantization/resnet.py
+++ b/torchvision/prototype/models/quantization/resnet.py
@@ -56,6 +56,7 @@ def _resnet(
 _COMMON_META = {
    "task": "image_classification",
    "size": (224, 224),
+    "min_size": (1, 1),
    "categories": _IMAGENET_CATEGORIES,
    "interpolation": InterpolationMode.BILINEAR,
    "backend": "fbgemm",

--- a/torchvision/prototype/models/quantization/shufflenetv2.py
+++ b/torchvision/prototype/models/quantization/shufflenetv2.py
@@ -55,6 +55,7 @@ _COMMON_META = {
    "architecture": "ShuffleNetV2",
    "publication_year": 2018,
    "size": (224, 224),
+    "min_size": (1, 1),
    "categories": _IMAGENET_CATEGORIES,
    "interpolation": InterpolationMode.BILINEAR,
    "backend": "fbgemm",

--- a/torchvision/prototype/models/regnet.py
+++ b/torchvision/prototype/models/regnet.py
@@ -50,6 +50,7 @@ _COMMON_META = {
    "architecture": "RegNet",
    "publication_year": 2020,
    "size": (224, 224),
+    "min_size": (1, 1),
    "categories": _IMAGENET_CATEGORIES,
    "interpolation": InterpolationMode.BILINEAR,
 }

--- a/torchvision/prototype/models/resnet.py
+++ b/torchvision/prototype/models/resnet.py
@@ -54,6 +54,7 @@ def _resnet(
 _COMMON_META = {
    "task": "image_classification",
    "size": (224, 224),
+    "min_size": (1, 1),
    "categories": _IMAGENET_CATEGORIES,
    "interpolation": InterpolationMode.BILINEAR,
 }

--- a/torchvision/prototype/models/shufflenetv2.py
+++ b/torchvision/prototype/models/shufflenetv2.py
@@ -45,6 +45,7 @@ _COMMON_META = {
    "architecture": "ShuffleNetV2",
    "publication_year": 2018,
    "size": (224, 224),
+    "min_size": (1, 1),
    "categories": _IMAGENET_CATEGORIES,
    "interpolation": InterpolationMode.BILINEAR,
    "recipe": "https://github.com/barrh/Shufflenet-v2-Pytorch/tree/v0.1.0",

--- a/torchvision/prototype/models/squeezenet.py
+++ b/torchvision/prototype/models/squeezenet.py
@@ -30,6 +30,7 @@ class SqueezeNet1_0_Weights(WeightsEnum):
        transforms=partial(ImageNetEval, crop_size=224),
        meta={
            **_COMMON_META,
+            "min_size": (21, 21),
            "num_params": 1248424,
            "acc@1": 58.092,
            "acc@5": 80.420,
@@ -44,6 +45,7 @@ class SqueezeNet1_1_Weights(WeightsEnum):
        transforms=partial(ImageNetEval, crop_size=224),
        meta={
            **_COMMON_META,
+            "min_size": (17, 17),
            "num_params": 1235496,
            "acc@1": 58.178,
            "acc@5": 80.624,

--- a/torchvision/prototype/models/vgg.py
+++ b/torchvision/prototype/models/vgg.py
@@ -45,6 +45,7 @@ _COMMON_META = {
    "architecture": "VGG",
    "publication_year": 2014,
    "size": (224, 224),
+    "min_size": (32, 32),
    "categories": _IMAGENET_CATEGORIES,
    "interpolation": InterpolationMode.BILINEAR,
    "recipe": "https://github.com/pytorch/vision/tree/main/references/classification#alexnet-and-vgg",