Move f/utils => f/internal; move testing libs to fair_dev/testing (#1004)

2350968e · Crutcher Dunnavant · GitHub · 3b727945 · 2350968e · 2350968e
Unverified Commit 2350968e authored Jun 12, 2022 by Crutcher Dunnavant Committed by GitHub Jun 12, 2022
20 changed files
--- a/fairscale/nn/pipe/messages.py
+++ b/fairscale/nn/pipe/messages.py
@@ -11,8 +11,8 @@ from typing import Dict, List, Optional
 import torch
+from fairscale.internal.object import pyobject_to_tensor, tensor_to_pyobject
 from fairscale.nn.model_parallel import get_pipeline_parallel_group
-from fairscale.utils.object import pyobject_to_tensor, tensor_to_pyobject
 from .types import MESSAGE_GENERATION_START, InputDevice, PipeMessage, Tensors

--- a/fairscale/nn/pipe/pipe.py
+++ b/fairscale/nn/pipe/pipe.py
@@ -27,7 +27,7 @@ from torch import Tensor, nn
 import torch.autograd
 import torch.cuda
-from fairscale.utils import torch_version
+from fairscale.internal import torch_version
 from . import microbatch
 from .batchnorm import DeferredBatchNorm

--- a/fairscale/optim/grad_scaler.py
+++ b/fairscale/optim/grad_scaler.py
@@ -18,7 +18,7 @@ import torch.distributed as dist
 from torch.optim import Optimizer
 from torch.optim.sgd import SGD
-from fairscale.utils import torch_version
+from fairscale.internal import torch_version
 class _GeneralMultiDeviceReplicator(object):

--- a/fairscale/optim/oss.py
+++ b/fairscale/optim/oss.py
@@ -17,8 +17,8 @@ import torch.distributed as dist
 from torch.nn import Parameter
 from torch.optim import SGD, Optimizer
+from fairscale.internal.params import calc_grad_norm, get_global_rank, recursive_copy_to_device
 from fairscale.nn.misc import ParamBucket
-from fairscale.utils.params import calc_grad_norm, get_global_rank, recursive_copy_to_device
 __all__ = ["OSS"]

--- a/tests/experimental/nn/ampnet_pipe_process/test_ampnet_pipe.py
+++ b/tests/experimental/nn/ampnet_pipe_process/test_ampnet_pipe.py
@@ -22,8 +22,8 @@ from torch import nn
 from torch.optim.optimizer import Optimizer
 from torch.utils.data import DataLoader, Dataset
+from fair_dev.testing.testing import get_worker_map, torch_spawn
 from fairscale.experimental.nn.ampnet_pipe.pipe import AMPnetPipe
-from fairscale.utils.testing import get_worker_map, torch_spawn
 class MySGD(Optimizer):

--- a/tests/experimental/nn/data_parallel/test_gossip.py
+++ b/tests/experimental/nn/data_parallel/test_gossip.py
@@ -15,8 +15,8 @@ from torch import nn
 import torch.distributed
 import torch.nn.functional as F
+from fair_dev.testing.testing import skip_if_single_gpu, spawn_for_all_world_sizes
 import fairscale.experimental.nn.data_parallel.gossip as gossip
-from fairscale.utils.testing import skip_if_single_gpu, spawn_for_all_world_sizes
 # Enfore CUBLAS reproducibility, see https://docs.nvidia.com/cuda/cublas/index.html#cublasApi_reproducibility
 os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":4096:8"

--- a/tests/experimental/nn/test_auto_shard.py
+++ b/tests/experimental/nn/test_auto_shard.py
@@ -14,7 +14,7 @@ import torch
 import torch.nn
 import torch.nn as nn
-from fairscale.utils import torch_version
+from fairscale.internal import torch_version
 class PositionalEncoding(nn.Module):

--- a/tests/experimental/nn/test_mevo.py
+++ b/tests/experimental/nn/test_mevo.py
@@ -12,9 +12,9 @@ import os
 import pytest
 import torch
+from fair_dev.testing.testing import skip_if_no_cuda
 from fairscale.experimental.nn import MEVO
 from fairscale.experimental.nn.mevo import BaselineSoftmaxNllLoss, get_data
-from fairscale.utils.testing import skip_if_no_cuda
 @pytest.fixture(scope="session", params=[torch.float16, torch.float32])

--- a/tests/experimental/nn/test_multiprocess_pipe.py
+++ b/tests/experimental/nn/test_multiprocess_pipe.py
@@ -20,9 +20,9 @@ import torch.distributed.rpc as rpc
 import torch.multiprocessing as mp
 import torch.nn as nn
+from fair_dev.testing.testing import skip_if_single_gpu
 from fairscale.experimental.nn.distributed_pipeline import DistributedLoss, DistributedPipeline, PipelineModulesGraph
-from fairscale.utils import torch_version
+from fairscale.internal import torch_version
-from fairscale.utils.testing import skip_if_single_gpu
 pytestmark = pytest.mark.skipif(
    not torch.cuda.is_available() or torch_version() < (1, 9, 0),

--- a/tests/experimental/nn/test_offload.py
+++ b/tests/experimental/nn/test_offload.py
@@ -14,9 +14,9 @@ import numpy as np
 import pytest
 import torch
+from fair_dev.testing.testing import skip_if_no_cuda
 from fairscale.experimental.nn.offload import OffloadModel
-from fairscale.utils import torch_version
+from fairscale.internal import torch_version
-from fairscale.utils.testing import skip_if_no_cuda
 if torch_version() >= (1, 8, 0):
    from fairscale.experimental.nn.auto_shard import shard_model

--- a/tests/experimental/tooling/test_layer_memory_tracker.py
+++ b/tests/experimental/tooling/test_layer_memory_tracker.py
@@ -10,13 +10,13 @@ import torch.multiprocessing as mp
 import torch.nn as nn
 from torch.nn.parallel import DistributedDataParallel
+from fair_dev.testing.testing import GPT2, dist_init, skip_if_no_cuda, skip_if_single_gpu, temp_files_ctx
 from fairscale.experimental.tooling.layer_memory_tracker import (
    LayerwiseMemoryTracker,
    ProcessGroupTracker,
    find_best_reset_points,
 )
 from fairscale.nn import FullyShardedDataParallel
-from fairscale.utils.testing import GPT2, dist_init, skip_if_no_cuda, skip_if_single_gpu, temp_files_ctx
 @skip_if_no_cuda()

--- a/tests/nn/checkpoint/test_checkpoint_activations.py
+++ b/tests/nn/checkpoint/test_checkpoint_activations.py
@@ -10,11 +10,11 @@ import torch
 import torch.nn as nn
 from torch.utils.checkpoint import checkpoint as torch_checkpoint_wrapper
+from fair_dev.testing.testing import skip_if_no_cuda
+from fairscale.internal import torch_version
 from fairscale.nn.checkpoint.checkpoint_activations import checkpoint_wrapper, disable_checkpointing
 from fairscale.nn.misc import FlattenParamsWrapper
 from fairscale.nn.misc import checkpoint_wrapper as deprecated_checkpoint_wrapper
-from fairscale.utils import torch_version
-from fairscale.utils.testing import skip_if_no_cuda
 def get_cuda_mem_allocated():

--- a/tests/nn/checkpoint/test_checkpoint_activations_norm.py
+++ b/tests/nn/checkpoint/test_checkpoint_activations_norm.py
@@ -14,9 +14,9 @@ import torch
 from torch.nn import BatchNorm2d, LayerNorm, Linear, Sequential
 from torch.optim import SGD
+from fair_dev.testing.testing import objects_are_equal
+from fairscale.internal import torch_version
 from fairscale.nn.checkpoint.checkpoint_activations import checkpoint_wrapper
-from fairscale.utils import torch_version
-from fairscale.utils.testing import objects_are_equal
 NORM_TYPES = [LayerNorm, BatchNorm2d]
 MP_TYPES = ["fp32", "fp16", "call_half"]

--- a/tests/nn/data_parallel/test_fsdp.py
+++ b/tests/nn/data_parallel/test_fsdp.py
@@ -18,10 +18,7 @@ import torch
 from torch import nn
 import torch.distributed
-from fairscale.nn.checkpoint.checkpoint_activations import checkpoint_wrapper
+from fair_dev.testing.testing import (
-from fairscale.nn.data_parallel import FullyShardedDataParallel, TrainingState
-from fairscale.utils import torch_version
-from fairscale.utils.testing import (
    DeviceAndTypeCheckModule,
    DummyProcessGroup,
    dist_init,
@@ -30,6 +27,9 @@ from fairscale.utils.testing import (
    skip_a_test_if_in_CI,
    spawn_for_all_world_sizes,
 )
+from fairscale.internal import torch_version
+from fairscale.nn.checkpoint.checkpoint_activations import checkpoint_wrapper
+from fairscale.nn.data_parallel import FullyShardedDataParallel, TrainingState
 if torch_version() >= (1, 8, 0):
    from fairscale.optim.grad_scaler import ShardedGradScaler

--- a/tests/nn/data_parallel/test_fsdp_apply.py
+++ b/tests/nn/data_parallel/test_fsdp_apply.py
@@ -10,7 +10,7 @@ from parameterized import parameterized
 import pytest
 import torch.nn as nn
-from fairscale.utils import torch_version
+from fairscale.internal import torch_version
 from .test_fsdp import (
    CONFIG_OPTIONS,

--- a/tests/nn/data_parallel/test_fsdp_freezing_weights.py
+++ b/tests/nn/data_parallel/test_fsdp_freezing_weights.py
@@ -21,8 +21,8 @@ import torch.nn as nn
 from torch.nn.parallel import DistributedDataParallel
 import torch.optim as optim
+from fair_dev.testing.testing import dist_init, objects_are_equal, rmf, skip_if_single_gpu, teardown
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP
-from fairscale.utils.testing import dist_init, objects_are_equal, rmf, skip_if_single_gpu, teardown
 class FreezeModel(nn.Module):

--- a/tests/nn/data_parallel/test_fsdp_grad_acc.py
+++ b/tests/nn/data_parallel/test_fsdp_grad_acc.py
@@ -12,8 +12,8 @@ from unittest.mock import patch
 from parameterized import parameterized
 import torch
+from fair_dev.testing.testing import DummyProcessGroup, make_cudnn_deterministic, objects_are_equal
 from fairscale.nn.data_parallel import FullyShardedDataParallel
-from fairscale.utils.testing import DummyProcessGroup, make_cudnn_deterministic, objects_are_equal
 from .test_fsdp import DistributedTest, NestedWrappedModule, rename_test, spawn_and_init

--- a/tests/nn/data_parallel/test_fsdp_hf_transformer_eval.py
+++ b/tests/nn/data_parallel/test_fsdp_hf_transformer_eval.py
@@ -6,9 +6,9 @@ import unittest
 import torch
 from torch import nn
+from fair_dev.testing.testing import dist_init
 from fairscale.nn import FullyShardedDataParallel as FSDP
 from fairscale.nn import auto_wrap, enable_wrap
-from fairscale.utils.testing import dist_init
 def wrap_transformer_only(module, recurse, **kwargs):

--- a/tests/nn/data_parallel/test_fsdp_input.py
+++ b/tests/nn/data_parallel/test_fsdp_input.py
@@ -16,10 +16,10 @@ import torch
 from torch.nn import Linear, Module
 from torch.optim import SGD
+from fair_dev.testing.testing import dist_init, rmf, skip_if_no_cuda, teardown
+from fairscale.internal import torch_version
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP
 from fairscale.nn.data_parallel import TrainingState
-from fairscale.utils import torch_version
-from fairscale.utils.testing import dist_init, rmf, skip_if_no_cuda, teardown
 # A fixture to get tempfiles and ensure they are cleaned up.

--- a/tests/nn/data_parallel/test_fsdp_memory.py
+++ b/tests/nn/data_parallel/test_fsdp_memory.py
@@ -18,12 +18,12 @@ import torch.nn as nn
 from torch.nn.parallel import DistributedDataParallel
 import torch.optim as optim
+from fair_dev.testing.testing import dist_init, dump_all_tensors, skip_if_single_gpu, teardown, temp_files_ctx
+from fairscale.internal import torch_version
+from fairscale.internal.parallel import get_process_group_cached
 from fairscale.nn import checkpoint_wrapper
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP
 from fairscale.nn.data_parallel import auto_wrap_bn
-from fairscale.utils import torch_version
-from fairscale.utils.parallel import get_process_group_cached
-from fairscale.utils.testing import dist_init, dump_all_tensors, skip_if_single_gpu, teardown, temp_files_ctx
 def to_fsdp(module, fsdp_config):