[chore] move fair_dev into fairscale (#1078)

Co-authored-by: Min Xu <min.xu.public@gmail.com>

[chore] move fair_dev into fairscale (#1078)
Co-authored-by: Min Xu <min.xu.public@gmail.com>
8f8f8ef9 · Min Xu · GitHub · bfd57ff3 · 8f8f8ef9 · 8f8f8ef9
Unverified Commit 8f8f8ef9 authored Sep 23, 2022 by Min Xu Committed by GitHub Sep 23, 2022
20 changed files
--- a/tests/nn/data_parallel/test_sharded_ddp_pytorch_parity.py
+++ b/tests/nn/data_parallel/test_sharded_ddp_pytorch_parity.py
@@ -19,7 +19,12 @@ import torch.multiprocessing as mp
 from torch.nn import Linear, Sequential
 from torch.nn.parallel import DistributedDataParallel as DDP
-from fair_dev.testing.testing import check_same_model_params, skip_if_no_cuda, skip_if_single_gpu, temp_files_ctx
+from fairscale.fair_dev.testing.testing import (
+    check_same_model_params,
+    skip_if_no_cuda,
+    skip_if_single_gpu,
+    temp_files_ctx,
+)
 from fairscale.internal import torch_version
 from fairscale.nn.data_parallel import ShardedDataParallel
 from fairscale.optim import OSS

--- a/tests/nn/misc/test_flatten_params_wrapper.py
+++ b/tests/nn/misc/test_flatten_params_wrapper.py
@@ -10,7 +10,7 @@ import unittest
 import torch
-from fair_dev.testing.testing import objects_are_equal
+from fairscale.fair_dev.testing.testing import objects_are_equal
 from fairscale.nn import FlattenParamsWrapper

--- a/tests/nn/model_parallel/test_cross_entropy.py
+++ b/tests/nn/model_parallel/test_cross_entropy.py
@@ -23,7 +23,7 @@
 import torch
 import torch.nn.functional as F
-from fair_dev.testing.testing import IdentityLayer, dist_init, set_random_seed, spawn_for_all_world_sizes
+from fairscale.fair_dev.testing.testing import IdentityLayer, dist_init, set_random_seed, spawn_for_all_world_sizes
 from fairscale.nn.model_parallel import initialize as mpu
 from fairscale.nn.model_parallel.cross_entropy import vocab_parallel_cross_entropy
 from fairscale.nn.model_parallel.mappings import scatter_to_model_parallel_region

--- a/tests/nn/model_parallel/test_initialize.py
+++ b/tests/nn/model_parallel/test_initialize.py
@@ -22,7 +22,7 @@
 import torch
-from fair_dev.testing.testing import dist_init, spawn_for_all_world_sizes
+from fairscale.fair_dev.testing.testing import dist_init, spawn_for_all_world_sizes
 from fairscale.nn.model_parallel import initialize as mpu

--- a/tests/nn/model_parallel/test_layers.py
+++ b/tests/nn/model_parallel/test_layers.py
@@ -24,7 +24,7 @@ import torch
 import torch.nn.init as init
 from torch.nn.parameter import Parameter
-from fair_dev.testing.testing import dist_init, set_random_seed, spawn_for_all_world_sizes
+from fairscale.fair_dev.testing.testing import dist_init, set_random_seed, spawn_for_all_world_sizes
 from fairscale.nn.model_parallel import initialize as mpu
 from fairscale.nn.model_parallel import layers

--- a/tests/nn/model_parallel/test_random.py
+++ b/tests/nn/model_parallel/test_random.py
@@ -21,7 +21,7 @@
 import torch
-from fair_dev.testing.testing import dist_init, spawn_for_all_world_sizes
+from fairscale.fair_dev.testing.testing import dist_init, spawn_for_all_world_sizes
 from fairscale.nn.model_parallel import initialize as mpu
 from fairscale.nn.model_parallel import random
 from fairscale.nn.model_parallel.random import get_cuda_rng_tracker, model_parallel_cuda_manual_seed

--- a/tests/nn/moe/test_moe_layer.py
+++ b/tests/nn/moe/test_moe_layer.py
@@ -11,7 +11,7 @@ import torch
 import torch.distributed as dist
 import torch.multiprocessing as mp
-from fair_dev.testing.testing import make_cudnn_deterministic
+from fairscale.fair_dev.testing.testing import make_cudnn_deterministic
 from fairscale.internal import torch_version
 from fairscale.nn import MOELayer, Top2Gate

--- a/tests/nn/pipe/skip/test_gpipe.py
+++ b/tests/nn/pipe/skip/test_gpipe.py
@@ -21,7 +21,7 @@ import pytest
 import torch
 from torch import nn
-from fair_dev.testing.testing import skip_if_single_gpu
+from fairscale.fair_dev.testing.testing import skip_if_single_gpu
 from fairscale.nn.pipe import Pipe
 from fairscale.nn.pipe.skip import pop, skippable, stash
 from fairscale.nn.pipe.skip.portal import PortalBlue, PortalCopy, PortalOrange

--- a/tests/nn/pipe/test_bugs.py
+++ b/tests/nn/pipe/test_bugs.py
@@ -22,7 +22,7 @@ import torch
 from torch import nn
 import torch.nn.functional as F
-from fair_dev.testing.testing import skip_if_single_gpu
+from fairscale.fair_dev.testing.testing import skip_if_single_gpu
 from fairscale.nn.pipe import Pipe

--- a/tests/nn/pipe/test_checkpoint_ddp.py
+++ b/tests/nn/pipe/test_checkpoint_ddp.py
@@ -20,7 +20,7 @@ from torch.nn import Linear, Sequential
 from torch.nn.parallel import DistributedDataParallel as DDP
 from torch.utils.checkpoint import checkpoint as torch_checkpoint
-from fair_dev.testing.testing import skip_if_no_cuda, skip_if_single_gpu
+from fairscale.fair_dev.testing.testing import skip_if_no_cuda, skip_if_single_gpu
 from fairscale.nn.pipe.checkpoint import Checkpointing, Function, TensorOrTensors
 from fairscale.nn.pipe.microbatch import Batch

--- a/tests/nn/pipe/test_parity.py
+++ b/tests/nn/pipe/test_parity.py
@@ -14,7 +14,7 @@ import numpy as np
 import pytest
 import torch
-from fair_dev.testing.testing import skip_if_single_gpu
+from fairscale.fair_dev.testing.testing import skip_if_single_gpu
 from fairscale.nn import Pipe

--- a/tests/nn/pipe_process/test_bugs.py
+++ b/tests/nn/pipe_process/test_bugs.py
@@ -22,7 +22,7 @@ import torch
 from torch import nn
 import torch.nn.functional as F
-from fair_dev.testing.testing import get_worker_map, torch_spawn
+from fairscale.fair_dev.testing.testing import get_worker_map, torch_spawn
 from fairscale.nn.pipe import AsyncPipe

--- a/tests/nn/pipe_process/test_inplace.py
+++ b/tests/nn/pipe_process/test_inplace.py
@@ -21,7 +21,7 @@ import pytest
 import torch
 from torch import nn
-from fair_dev.testing.testing import get_worker_map, torch_spawn
+from fairscale.fair_dev.testing.testing import get_worker_map, torch_spawn
 from fairscale.nn.pipe import AsyncPipe

--- a/tests/nn/pipe_process/test_pipe.py
+++ b/tests/nn/pipe_process/test_pipe.py
@@ -26,7 +26,7 @@ import pytest
 import torch
 from torch import nn
-from fair_dev.testing.testing import get_worker_map, torch_spawn
+from fairscale.fair_dev.testing.testing import get_worker_map, torch_spawn
 from fairscale.internal import torch_version
 from fairscale.nn.model_parallel.initialize import get_pipeline_parallel_group
 from fairscale.nn.pipe import AsyncPipe

--- a/tests/nn/pipe_process/test_rpc.py
+++ b/tests/nn/pipe_process/test_rpc.py
@@ -6,7 +6,7 @@ import torch
 from torch import nn
 from torch.distributed import rpc
-from fair_dev.testing.testing import get_worker_map, torch_spawn
+from fairscale.fair_dev.testing.testing import get_worker_map, torch_spawn
 from fairscale.internal import torch_version
 from fairscale.nn.model_parallel.initialize import get_pipeline_parallel_group
 from fairscale.nn.pipe import PipeRPCWrapper

--- a/tests/nn/pipe_process/test_transparency.py
+++ b/tests/nn/pipe_process/test_transparency.py
@@ -21,7 +21,7 @@ import pytest
 import torch
 from torch import nn
-from fair_dev.testing.testing import get_worker_map, set_random_seed, torch_spawn
+from fairscale.fair_dev.testing.testing import get_worker_map, set_random_seed, torch_spawn
 from fairscale.nn.pipe import AsyncPipe

--- a/tests/nn/wrap/test_wrap.py
+++ b/tests/nn/wrap/test_wrap.py
@@ -12,7 +12,7 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
-from fair_dev.testing.testing import DummyProcessGroup
+from fairscale.fair_dev.testing.testing import DummyProcessGroup
 from fairscale.nn import FullyShardedDataParallel as FSDP
 from fairscale.nn import auto_wrap, default_auto_wrap_policy, enable_wrap, wrap

--- a/tests/optim/test_ddp_adascale.py
+++ b/tests/optim/test_ddp_adascale.py
@@ -33,8 +33,8 @@ from torch.nn import Linear
 from torch.nn.parallel import DistributedDataParallel as DDP
 from torch.optim import SGD
-from fair_dev.testing.golden_testing_data import adascale_test_data
+from fairscale.fair_dev.testing.golden_testing_data import adascale_test_data
-from fair_dev.testing.testing import skip_if_single_gpu
+from fairscale.fair_dev.testing.testing import skip_if_single_gpu
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP
 from fairscale.nn.data_parallel import ShardedDataParallel as SDP
 from fairscale.optim import OSS, AdaScale

--- a/tests/optim/test_layerwise_gradient_scaler.py
+++ b/tests/optim/test_layerwise_gradient_scaler.py
@@ -17,8 +17,8 @@ from torch.utils.data import DataLoader
 import torchvision
 import torchvision.transforms as transforms
-from fair_dev.common_paths import DATASET_CACHE_ROOT
+from fairscale.fair_dev.common_paths import DATASET_CACHE_ROOT
-from fair_dev.testing.testing import skip_a_test_if_in_CI
+from fairscale.fair_dev.testing.testing import skip_a_test_if_in_CI
 from fairscale.optim.layerwise_gradient_scaler import LayerwiseGradientScaler

--- a/tests/optim/test_oss.py
+++ b/tests/optim/test_oss.py
@@ -21,7 +21,7 @@ import torch.distributed as dist
 import torch.multiprocessing as mp
 from torch.nn.parallel import DistributedDataParallel as DDP
-from fair_dev.testing.testing import (
+from fairscale.fair_dev.testing.testing import (
    check_same_model_params,
    check_same_models_across_ranks,
    skip_if_no_cuda,