[chore] move fair_dev into fairscale (#1078)

Co-authored-by: Min Xu <min.xu.public@gmail.com>

[chore] move fair_dev into fairscale (#1078)
Co-authored-by: Min Xu <min.xu.public@gmail.com>
8f8f8ef9 · Min Xu · GitHub · bfd57ff3 · 8f8f8ef9 · 8f8f8ef9
Unverified Commit 8f8f8ef9 authored Sep 23, 2022 by Min Xu Committed by GitHub Sep 23, 2022
20 changed files
--- a/tests/nn/data_parallel/test_fsdp_freezing_weights.py
+++ b/tests/nn/data_parallel/test_fsdp_freezing_weights.py
@@ -21,7 +21,7 @@ import torch.nn as nn
 from torch.nn.parallel import DistributedDataParallel
 import torch.optim as optim

-from fair_dev.testing.testing import dist_init, objects_are_equal, rmf, skip_if_single_gpu, teardown
+from fairscale.fair_dev.testing.testing import dist_init, objects_are_equal, rmf, skip_if_single_gpu, teardown
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP



--- a/tests/nn/data_parallel/test_fsdp_grad_acc.py
+++ b/tests/nn/data_parallel/test_fsdp_grad_acc.py
@@ -12,7 +12,7 @@ from unittest.mock import patch
 from parameterized import parameterized
 import torch

-from fair_dev.testing.testing import DummyProcessGroup, make_cudnn_deterministic, objects_are_equal
+from fairscale.fair_dev.testing.testing import DummyProcessGroup, make_cudnn_deterministic, objects_are_equal
 from fairscale.nn.data_parallel import FullyShardedDataParallel

 from .test_fsdp import DistributedTest, NestedWrappedModule, rename_test, spawn_and_init

--- a/tests/nn/data_parallel/test_fsdp_hf_transformer_eval.py
+++ b/tests/nn/data_parallel/test_fsdp_hf_transformer_eval.py
@@ -6,7 +6,7 @@ import unittest
 import torch
 from torch import nn

-from fair_dev.testing.testing import dist_init
+from fairscale.fair_dev.testing.testing import dist_init
 from fairscale.nn import FullyShardedDataParallel as FSDP
 from fairscale.nn import auto_wrap, enable_wrap


--- a/tests/nn/data_parallel/test_fsdp_input.py
+++ b/tests/nn/data_parallel/test_fsdp_input.py
@@ -16,7 +16,7 @@ import torch
 from torch.nn import Linear, Module
 from torch.optim import SGD

-from fair_dev.testing.testing import dist_init, rmf, skip_if_no_cuda, teardown
+from fairscale.fair_dev.testing.testing import dist_init, rmf, skip_if_no_cuda, teardown
 from fairscale.internal import torch_version
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP
 from fairscale.nn.data_parallel import TrainingState

--- a/tests/nn/data_parallel/test_fsdp_memory.py
+++ b/tests/nn/data_parallel/test_fsdp_memory.py
@@ -18,7 +18,7 @@ import torch.nn as nn
 from torch.nn.parallel import DistributedDataParallel
 import torch.optim as optim

-from fair_dev.testing.testing import dist_init, dump_all_tensors, skip_if_single_gpu, teardown, temp_files_ctx
+from fairscale.fair_dev.testing.testing import dist_init, dump_all_tensors, skip_if_single_gpu, teardown, temp_files_ctx
 from fairscale.internal import torch_version
 from fairscale.internal.parallel import get_process_group_cached
 from fairscale.nn import checkpoint_wrapper

--- a/tests/nn/data_parallel/test_fsdp_metadata.py
+++ b/tests/nn/data_parallel/test_fsdp_metadata.py
@@ -14,7 +14,7 @@ import torch.multiprocessing as mp
 import torch.nn as nn
 from torch.optim import Adam

-from fair_dev.testing.testing import in_temporary_directory, skip_if_single_gpu, temp_files_ctx
+from fairscale.fair_dev.testing.testing import in_temporary_directory, skip_if_single_gpu, temp_files_ctx
 from fairscale.nn import FullyShardedDataParallel
 from tests.nn.data_parallel.test_fsdp import DistributedTest, MixtureOfExperts, rename_test, spawn_and_init


--- a/tests/nn/data_parallel/test_fsdp_multiple_forward.py
+++ b/tests/nn/data_parallel/test_fsdp_multiple_forward.py
@@ -17,7 +17,7 @@ import torch.multiprocessing as mp
 from torch.nn import Linear, Module
 from torch.optim import SGD

-from fair_dev.testing.testing import dist_init, skip_if_single_gpu, teardown
+from fairscale.fair_dev.testing.testing import dist_init, skip_if_single_gpu, teardown
 from fairscale.internal import torch_version
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP
 from fairscale.nn.data_parallel import TrainingState

--- a/tests/nn/data_parallel/test_fsdp_multiple_forward_checkpoint.py
+++ b/tests/nn/data_parallel/test_fsdp_multiple_forward_checkpoint.py
@@ -20,7 +20,7 @@ import torch.nn as nn
 from torch.nn.parallel import DistributedDataParallel
 import torch.optim as optim

-from fair_dev.testing.testing import dist_init, skip_if_single_gpu, teardown, temp_files_ctx
+from fairscale.fair_dev.testing.testing import dist_init, skip_if_single_gpu, teardown, temp_files_ctx
 from fairscale.internal import torch_version
 from fairscale.nn import checkpoint_wrapper
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP

--- a/tests/nn/data_parallel/test_fsdp_multiple_wrapping.py
+++ b/tests/nn/data_parallel/test_fsdp_multiple_wrapping.py
@@ -17,7 +17,7 @@ import torch.multiprocessing as mp
 from torch.nn import Linear, Module, Sequential
 from torch.optim import SGD

-from fair_dev.testing.testing import dist_init, skip_if_no_cuda, teardown
+from fairscale.fair_dev.testing.testing import dist_init, skip_if_no_cuda, teardown
 from fairscale.internal import torch_version
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP
 from fairscale.nn.data_parallel import TrainingState

--- a/tests/nn/data_parallel/test_fsdp_offload.py
+++ b/tests/nn/data_parallel/test_fsdp_offload.py
@@ -25,7 +25,7 @@ except ImportError as ie:
    pytestmark = pytest.mark.skipif(True, reason=ie.msg)
    pass

-from fair_dev.testing.testing import dist_init, spawn_for_all_world_sizes
+from fairscale.fair_dev.testing.testing import dist_init, spawn_for_all_world_sizes
 from fairscale.nn.checkpoint.checkpoint_activations import checkpoint_wrapper
 from fairscale.nn.data_parallel import FullyShardedDataParallel, OffloadConfig, TrainingState


--- a/tests/nn/data_parallel/test_fsdp_optimizer_utils.py
+++ b/tests/nn/data_parallel/test_fsdp_optimizer_utils.py
@@ -12,7 +12,7 @@ import torch
 from torch import nn
 from torch.optim import SGD, Adadelta, Adam  # type: ignore

-from fair_dev.testing.testing import dist_init, objects_are_equal, spawn_for_all_world_sizes
+from fairscale.fair_dev.testing.testing import dist_init, objects_are_equal, spawn_for_all_world_sizes
 from fairscale.internal.params import recursive_copy_to_device
 from fairscale.nn.data_parallel import FullyShardedDataParallel, get_fsdp_instances
 from fairscale.nn.data_parallel.fsdp_optim_utils import is_singleton_tensor

--- a/tests/nn/data_parallel/test_fsdp_overlap.py
+++ b/tests/nn/data_parallel/test_fsdp_overlap.py
@@ -19,7 +19,13 @@ from torch.cuda import Event
 import torch.multiprocessing as mp
 import torch.nn as nn

-from fair_dev.testing.testing import dist_init, get_cycles_per_ms, skip_if_single_gpu, teardown, temp_files_ctx
+from fairscale.fair_dev.testing.testing import (
+    dist_init,
+    get_cycles_per_ms,
+    skip_if_single_gpu,
+    teardown,
+    temp_files_ctx,
+)
 from fairscale.internal import torch_version
 from fairscale.nn import enable_wrap, wrap
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP

--- a/tests/nn/data_parallel/test_fsdp_pre_backward_hook.py
+++ b/tests/nn/data_parallel/test_fsdp_pre_backward_hook.py
@@ -13,7 +13,7 @@ import pytest
 import torch
 from torch.nn import Linear, Module

-from fair_dev.testing.testing import dist_init, skip_if_no_cuda, teardown, temp_files_ctx
+from fairscale.fair_dev.testing.testing import dist_init, skip_if_no_cuda, teardown, temp_files_ctx
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP



--- a/tests/nn/data_parallel/test_fsdp_regnet.py
+++ b/tests/nn/data_parallel/test_fsdp_regnet.py
@@ -33,7 +33,7 @@ from torch.nn import (
 from torch.nn.parallel import DistributedDataParallel as DDP
 from torch.optim import SGD

-from fair_dev.testing.testing import (
+from fairscale.fair_dev.testing.testing import (
    dist_init,
    objects_are_equal,
    rmf,

--- a/tests/nn/data_parallel/test_fsdp_shared_weights.py
+++ b/tests/nn/data_parallel/test_fsdp_shared_weights.py
@@ -17,7 +17,13 @@ import torch.multiprocessing as mp
 from torch.nn import Linear, Module
 from torch.optim import SGD

-from fair_dev.testing.testing import dist_init, objects_are_equal, skip_if_single_gpu, teardown, temp_files_ctx
+from fairscale.fair_dev.testing.testing import (
+    dist_init,
+    objects_are_equal,
+    skip_if_single_gpu,
+    teardown,
+    temp_files_ctx,
+)
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP



--- a/tests/nn/data_parallel/test_fsdp_shared_weights_mevo.py
+++ b/tests/nn/data_parallel/test_fsdp_shared_weights_mevo.py
@@ -17,7 +17,8 @@ from torch import nn
 import torch.multiprocessing as mp
 from torch.optim import SGD

-from fair_dev.testing.testing import (
+from fairscale.experimental.nn import MEVO
+from fairscale.fair_dev.testing.testing import (
    dist_init,
    in_circle_ci,
    objects_are_equal,
@@ -25,7 +26,6 @@ from fair_dev.testing.testing import (
    teardown,
    temp_files_ctx,
 )
-from fairscale.experimental.nn import MEVO
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP

 VOCAB = 4

--- a/tests/nn/data_parallel/test_fsdp_state_dict.py
+++ b/tests/nn/data_parallel/test_fsdp_state_dict.py
@@ -11,7 +11,7 @@ import pytest
 import torch
 from torch import nn

-from fair_dev.testing.testing import dist_init, objects_are_equal, skip_if_cuda, teardown, temp_files_ctx
+from fairscale.fair_dev.testing.testing import dist_init, objects_are_equal, skip_if_cuda, teardown, temp_files_ctx
 from fairscale.internal import torch_version
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP


--- a/tests/nn/data_parallel/test_fsdp_uneven.py
+++ b/tests/nn/data_parallel/test_fsdp_uneven.py
@@ -18,7 +18,7 @@ import torch.multiprocessing as mp
 from torch.nn import Linear, Sequential
 from torch.optim import SGD

-from fair_dev.testing.testing import dist_init, skip_if_single_gpu, teardown
+from fairscale.fair_dev.testing.testing import dist_init, skip_if_single_gpu, teardown
 from fairscale.internal import torch_version
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP
 from fairscale.nn.data_parallel.fully_sharded_data_parallel import TrainingState

--- a/tests/nn/data_parallel/test_fsdp_with_checkpoint_wrapper.py
+++ b/tests/nn/data_parallel/test_fsdp_with_checkpoint_wrapper.py
@@ -13,7 +13,7 @@ from torch import nn
 import torch.distributed
 import torch.multiprocessing as mp

-from fair_dev.testing.testing import dist_init, skip_if_single_gpu, teardown, temp_files_ctx
+from fairscale.fair_dev.testing.testing import dist_init, skip_if_single_gpu, teardown, temp_files_ctx
 from fairscale.nn.checkpoint.checkpoint_activations import checkpoint_wrapper
 from fairscale.nn.data_parallel import FullyShardedDataParallel as FSDP


--- a/tests/nn/data_parallel/test_sharded_ddp_features.py
+++ b/tests/nn/data_parallel/test_sharded_ddp_features.py
@@ -16,7 +16,7 @@ import torch.distributed as dist
 import torch.multiprocessing as mp
 from torch.nn import Linear, Sequential

-from fair_dev.testing.testing import (
+from fairscale.fair_dev.testing.testing import (
    GPT2,
    SGDWithPausingCompute,
    available_devices,