delete unused files

da3f0934 · zhuwenwen · c4dd1fd4 · c4dd1fd4 · c4dd1fd4 · c4dd1fd4
Commit da3f0934 authored Apr 23, 2023 by zhuwenwen
20 changed files
--- a/colossalai/context/process_group_initializer/__pycache__/initializer_tensor.cpython-36.pyc
+++ b/colossalai/context/process_group_initializer/__pycache__/initializer_tensor.cpython-36.pyc
--- a/colossalai/context/process_group_initializer/__pycache__/initializer_tensor.cpython-37.pyc
+++ b/colossalai/context/process_group_initializer/__pycache__/initializer_tensor.cpython-37.pyc
--- a/colossalai/context/process_group_initializer/__pycache__/process_group_initializer.cpython-36.pyc
+++ b/colossalai/context/process_group_initializer/__pycache__/process_group_initializer.cpython-36.pyc
--- a/colossalai/context/process_group_initializer/__pycache__/process_group_initializer.cpython-37.pyc
+++ b/colossalai/context/process_group_initializer/__pycache__/process_group_initializer.cpython-37.pyc
--- a/colossalai/context/process_group_initializer/initializer_1d.py
+++ b/colossalai/context/process_group_initializer/initializer_1d.py
-#!/usr/bin/env python
-# -*- encoding: utf-8 -*-
-
-import torch.distributed as dist
-from colossalai.global_variables import tensor_parallel_env as env
-from colossalai.registry import DIST_GROUP_INITIALIZER
-
-from ..parallel_mode import ParallelMode
-from .process_group_initializer import ProcessGroupInitializer
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_1D(ProcessGroupInitializer):
-    '''A ProcessGroupInitializer for 1d tensor parallelism.
-    '''
-
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.num_group = self.world_size // self.tensor_parallel_size
-
-    def init_dist_group(self):
-        """Initialize 1D tensor parallel groups, and assign local_ranks and groups to each gpu.
-        
-        :return: (local_rank, group_world_size, process_group, ranks_in_group, mode)
-        :rtype: Tuple
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.PARALLEL_1D
-        env.parallel_input_1d = False
-
-        for i in range(self.num_group):
-            ranks = [i * self.tensor_parallel_size + j for j in range(self.tensor_parallel_size)]
-            group = dist.new_group(ranks)
-
-            if self.rank in ranks:
-                local_rank = ranks.index(self.rank)
-                group_world_size = len(ranks)
-                process_group = group
-                ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
--- a/colossalai/context/process_group_initializer/initializer_2d.py
+++ b/colossalai/context/process_group_initializer/initializer_2d.py
-import math
-
-import torch.distributed as dist
-
-from colossalai.registry import DIST_GROUP_INITIALIZER
-from .process_group_initializer import ProcessGroupInitializer
-from ..parallel_mode import ParallelMode
-from colossalai.global_variables import tensor_parallel_env as env
-
-
-def _check_summa_env_var(summa_dim):
-    # check environment variable for SUMMA
-    env_summa_dim = env.summa_dim
-
-    if env_summa_dim:
-        assert int(env_summa_dim) == summa_dim, \
-            'SUMMA_DIM has been set in the current environment and ' \
-            'does not match with the value passed to this initialized'
-    else:
-        env.summa_dim = summa_dim
-
-
-class Initializer_2D_Row(ProcessGroupInitializer):
-    """2d tensor parallel initialization among rows.
-    :param num_group: The number of all tensor groups
-    :param summa_dim: The dimension of SUMMA
-    :param args: Args used to initialize base class
-    :param kwargs: Kwargs used to initialize base class
-    :type num_group: int
-    :type summa_dim: int
-    """
-
-    def __init__(self, num_group, summa_dim, *args, **kwargs):
-        super(Initializer_2D_Row, self).__init__(*args, **kwargs)
-        self.num_group = num_group
-        self.summa_dim = summa_dim
-
-    def init_dist_group(self):
-        """Initialize 2D tensor row parallel groups, and assign local_ranks and groups to each gpu.
-
-        :return: 2D tensor row parallelism's information
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.PARALLEL_2D_ROW
-
-        for i in range(self.num_group):
-            for j in range(self.summa_dim):
-                ranks = [i * self.tensor_parallel_size + j * self.summa_dim + k
-                         for k in range(self.summa_dim)]
-                group = dist.new_group(ranks)
-
-                if self.rank in ranks:
-                    local_rank = ranks.index(self.rank)
-                    group_world_size = len(ranks)
-                    process_group = group
-                    ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
-
-
-class Initializer_2D_Col(ProcessGroupInitializer):
-    """2d tensor parallel initialization among cols.
-
-    :param num_group: The number of all tensor groups
-    :param summa_dim: The dimension of SUMMA
-    :param args: Args used to initialize base class
-    :param kwargs: Kwargs used to initialize base class
-
-    :type num_group: int
-    :type summa_dim: int
-    """
-
-    def __init__(self, num_group, summa_dim, *args, **kwargs):
-        super(Initializer_2D_Col, self).__init__(*args, **kwargs)
-        self.num_group = num_group
-        self.summa_dim = summa_dim
-
-    def init_dist_group(self):
-        """Initialize 2D tensor row parallel groups, and assign local_ranks and groups to each gpu.
-
-        :return: 2D tensor col parallelism's information
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.PARALLEL_2D_COL
-
-        for i in range(self.num_group):
-            for j in range(self.summa_dim):
-                ranks = [i * self.tensor_parallel_size + j + k * self.summa_dim
-                         for k in range(self.summa_dim)]
-                group = dist.new_group(ranks)
-
-                if self.rank in ranks:
-                    local_rank = ranks.index(self.rank)
-                    group_world_size = len(ranks)
-                    process_group = group
-                    ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_2D(ProcessGroupInitializer):
-    """
-    Serve as the single entry point to 2D parallel initialization.
-
-    :param args: Args used to initialize ProcessGroupInitializer
-    :param kwargs: Kwargs used to initialize ProcessGroupInitializer
-    """
-
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.num_group = self.world_size // self.tensor_parallel_size
-        self.summa_dim = int(math.sqrt(self.tensor_parallel_size))
-
-        assert self.tensor_parallel_size == self.summa_dim ** 2, \
-            "2D summa dim should equal to tensor parallel size ^ 0.5"
-        _check_summa_env_var(self.summa_dim)
-
-        self.col_initializer = Initializer_2D_Col(self.num_group, self.summa_dim, *args, **kwargs)
-        self.row_initializer = Initializer_2D_Row(self.num_group, self.summa_dim, *args, **kwargs)
-
-    def init_dist_group(self):
-        """Initialize 2D tensor row and col parallel groups, and assign local_ranks and groups to each gpu.
-        
-        :return: 2D tensor parallelism's information
-        :rtype: list of Tuples (local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        parallel_setting = [self.row_initializer.init_dist_group(), self.col_initializer.init_dist_group()]
-        return parallel_setting
--- a/colossalai/context/process_group_initializer/initializer_2p5d.py
+++ b/colossalai/context/process_group_initializer/initializer_2p5d.py
-#!/usr/bin/env python
-# -*- encoding: utf-8 -*-
-
-import math
-
-import torch.distributed as dist
-from colossalai.context import Config
-from colossalai.global_variables import tensor_parallel_env as env
-from colossalai.registry import DIST_GROUP_INITIALIZER
-
-from ..parallel_mode import ParallelMode
-from .process_group_initializer import ProcessGroupInitializer
-
-
-def _check_tesseract_env_var(tesseract_dim: int,
-                             tesseract_dep: int):
-    # check global variable for TESSERACT
-    env_tesseract_dim = env.tesseract_dim
-    env_tesseract_dep = env.tesseract_dep
-
-    if env_tesseract_dim and env_tesseract_dep:
-        assert int(env_tesseract_dim) == tesseract_dim, \
-            'TESSERACT_DIM has been set in the current environment and ' \
-            'does not match with the value passed to this initialized'
-        assert int(env_tesseract_dep) == tesseract_dep, \
-            'TESSERACT_DEP has been set in the current environment and ' \
-            'does not match with the value passed to this initialized'
-    else:
-        env.tesseract_dim = tesseract_dim
-        env.tesseract_dep = tesseract_dep
-
-
-# i row j col k dep
-class Initializer_2p5D_ROW(ProcessGroupInitializer):
-    """2p5d tensor parallel initialization among rows.
-
-    :param tesseract_dim: The dimension of tesseract
-    :param tesseract_dep: The dimension of depth
-    :param args: Args used to initialize base class
-
-    :type tesseract_dim: int
-    :type tesseract_dep: int
-    """
-
-    def __init__(self,
-                 tesseract_dim: int,
-                 tesseract_dep: int,
-                 *args):
-        super(Initializer_2p5D_ROW, self).__init__(*args)
-        self.num_group = self.world_size // self.tensor_parallel_size
-        self.tesseract_dep = tesseract_dep
-        self.tesseract_dim = tesseract_dim
-        assert self.tensor_parallel_size == self.tesseract_dim ** 2 * self.tesseract_dep, \
-            "Tensor parallel size should be depth * dim ** 2 in 2.5D parallel"
-
-    def init_dist_group(self):
-        """Initialize 2p5D tensor row parallel groups, and assign local_ranks and groups to each gpu.
-
-        :return: 2p5D tensor row parallelism's information
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.PARALLEL_2P5D_ROW
-
-        for h in range(self.num_group):
-            for j in range(self.tesseract_dim):
-                for k in range(self.tesseract_dep):
-                    ranks = [h * self.tensor_parallel_size + i + self.tesseract_dim * (
-                        j + self.tesseract_dim * k) for i in range(self.tesseract_dim)]
-                    group = dist.new_group(ranks)
-
-                    if self.rank in ranks:
-                        local_rank = ranks.index(self.rank)
-                        group_world_size = len(ranks)
-                        process_group = group
-                        ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
-
-
-class Initializer_2p5D_Col(ProcessGroupInitializer):
-    """2p5d tensor parallel initialization among cols.
-
-    :param tesseract_dim: The dimension of tesseract
-    :param tesseract_dep: The dimension of depth
-    :param args: Args used to initialize base class
-
-    :type tesseract_dim: int
-    :type tesseract_dep: int
-    """
-
-    def __init__(self,
-                 tesseract_dim: int,
-                 tesseract_dep: int,
-                 *args):
-        super(Initializer_2p5D_Col, self).__init__(*args)
-        self.num_group = self.world_size // self.tensor_parallel_size
-        self.tesseract_dep = tesseract_dep
-        self.tesseract_dim = tesseract_dim
-        assert self.tensor_parallel_size == self.tesseract_dim ** 2 * self.tesseract_dep, \
-            "Tensor parallel size should be depth * dim ** 2 in 2.5D parallel"
-
-    def init_dist_group(self):
-        """Initialize 2p5D tensor col parallel groups, and assign local_ranks and groups to each gpu.
-
-        :return: 2p5D tensor col parallelism's information
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.PARALLEL_2P5D_COL
-
-        for h in range(self.num_group):
-            for i in range(self.tesseract_dim):
-                for k in range(self.tesseract_dep):
-                    ranks = [h * self.tensor_parallel_size + i + self.tesseract_dim * (
-                        j + self.tesseract_dim * k) for j in range(self.tesseract_dim)]
-                    group = dist.new_group(ranks)
-
-                    if self.rank in ranks:
-                        local_rank = ranks.index(self.rank)
-                        group_world_size = len(ranks)
-                        process_group = group
-                        ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
-
-
-class Initializer_2p5D_Dep(ProcessGroupInitializer):
-    """2p5D tensor parallel initialization among depths.
-
-    :param tesseract_dim: The dimension of tesseract
-    :param tesseract_dep: The dimension of depth
-    :param args: Args used to initialize base class
-
-    :type tesseract_dim: int
-    :type tesseract_dep: int
-    """
-
-    def __init__(self,
-                 tesseract_dim: int,
-                 tesseract_dep: int,
-                 *args):
-        super(Initializer_2p5D_Dep, self).__init__(*args)
-        self.num_group = self.world_size // self.tensor_parallel_size
-        self.tesseract_dep = tesseract_dep
-        self.tesseract_dim = tesseract_dim
-        assert self.tensor_parallel_size == self.tesseract_dim ** 2 * self.tesseract_dep, \
-            "Tensor parallel size should be depth * dim ** 2 in 2.5D parallel"
-
-    def init_dist_group(self):
-        """Initialize 2p5D tensor depth parallel groups, and assign local_ranks and groups to each gpu.
-
-        :return: 2p5D tensor depth parallelism's information
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.PARALLEL_2P5D_DEP
-
-        for h in range(self.num_group):
-            for i in range(self.tesseract_dim):
-                for j in range(self.tesseract_dim):
-                    ranks = [h * self.tensor_parallel_size + i + self.tesseract_dim * (
-                        j + self.tesseract_dim * k) for k in range(self.tesseract_dep)]
-                    group = dist.new_group(ranks)
-
-                    if self.rank in ranks:
-                        local_rank = ranks.index(self.rank)
-                        group_world_size = len(ranks)
-                        process_group = group
-                        ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
-
-
-# i row j col k dep
-class Initializer_2p5D_XZ(ProcessGroupInitializer):
-    """2p5d tensor parallel initialization among cols times dep.
-
-    :param tesseract_dim: The dimension of tesseract
-    :param tesseract_dep: The dimension of depth
-    :param args: Args used to initialize base class
-
-    :type tesseract_dim: int
-    :type tesseract_dep: int
-    """
-
-    def __init__(self,
-                 tesseract_dim: int,
-                 tesseract_dep: int,
-                 *args):
-        super(Initializer_2p5D_XZ, self).__init__(*args)
-        self.num_group = self.world_size // self.tensor_parallel_size
-        self.tesseract_dep = tesseract_dep
-        self.tesseract_dim = tesseract_dim
-        assert self.tensor_parallel_size == self.tesseract_dim ** 2 * self.tesseract_dep, \
-            "Tensor parallel size should be depth * dim ** 2 in 2.5D parallel"
-
-    def init_dist_group(self):
-        """Initialize 2p5D tensor colXdepth parallel groups, and assign local_ranks and groups to each gpu.
-
-        :return: 2p5D tensor colXdepth parallelism's information
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.PARALLEL_2P5D_XZ
-
-        for h in range(self.num_group):
-            for i in range(self.tesseract_dim):
-                ranks = [h * self.tensor_parallel_size + i + self.tesseract_dim * (
-                    j + self.tesseract_dim * k) for k in range(self.tesseract_dep) for j in
-                    range(self.tesseract_dim)]
-                group = dist.new_group(ranks)
-
-                if self.rank in ranks:
-                    local_rank = ranks.index(self.rank)
-                    group_world_size = len(ranks)
-                    process_group = group
-                    ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_2p5D(ProcessGroupInitializer):
-    """
-    Serve as the single entry point to Tesseract parallel initialization.
-
-    :param rank: The rank of current process
-    :param world_size: Size of whole communication world
-    :param config: Running configuration
-    :param data_parallel_size: Size of data parallel
-    :param pipeline_parallel_size: Size of pipeline parallel
-    :param tensor_parallel_size: Size of tensor parallel
-    :param depth: The depth of 2p5d parallel
-    :type rank: int
-    :type world_size: int
-    :type config: Config
-    :type data_parallel_size: int
-    :type pipeline_parallel_size: int
-    :type tensor_parallel_size: int
-    :type depth: int
-    """
-
-    def __init__(self,
-                 rank: int,
-                 world_size: int,
-                 config: Config,
-                 data_parallel_size: int,
-                 pipeline_parallel_size: int,
-                 tensor_parallel_size: int,
-                 depth: int
-                 ):
-        args = (rank, world_size, config, data_parallel_size, pipeline_parallel_size, tensor_parallel_size)
-        super().__init__(*args)
-        self.num_group = self.world_size // self.tensor_parallel_size
-        self.tesseract_dim = int(math.sqrt(self.tensor_parallel_size / depth))
-        self.tesseract_dep = depth
-
-        assert self.tensor_parallel_size == self.tesseract_dim ** 2 * self.tesseract_dep, \
-            "2.5D tesseract dim should equal to (tensor parallel size / tesseract dep) ^ 0.5"
-        _check_tesseract_env_var(self.tesseract_dim, self.tesseract_dep)
-
-        self.col_initializer = Initializer_2p5D_Col(self.tesseract_dim, self.tesseract_dep, *args)
-        self.row_initializer = Initializer_2p5D_ROW(self.tesseract_dim, self.tesseract_dep, *args)
-        self.dep_initializer = Initializer_2p5D_Dep(self.tesseract_dim, self.tesseract_dep, *args)
-        self.xz_initializer = Initializer_2p5D_XZ(self.tesseract_dim, self.tesseract_dep, *args)
-
-    def init_dist_group(self):
-        """Initialize 2p5D tensor row, col, depth, and colXdepth parallel groups, and assign local_ranks and groups to each gpu.
-        
-        :return: Whole 2p5D tensor parallelism's information
-        :rtype: list of Tuples (local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        parallel_setting = [self.col_initializer.init_dist_group(), self.row_initializer.init_dist_group(),
-                            self.dep_initializer.init_dist_group(), self.xz_initializer.init_dist_group()]
-        return parallel_setting
--- a/colossalai/context/process_group_initializer/initializer_3d.py
+++ b/colossalai/context/process_group_initializer/initializer_3d.py
-#!/usr/bin/env python
-# -*- encoding: utf-8 -*-
-
-import math
-
-import torch.distributed as dist
-from colossalai.global_variables import tensor_parallel_env as env
-from colossalai.registry import DIST_GROUP_INITIALIZER
-
-from ..parallel_mode import ParallelMode
-from .process_group_initializer import ProcessGroupInitializer
-
-
-def _check_depth_env_var(depth):
-    # check global variable
-    env_depth = env.depth_3d
-
-    if env_depth:
-        assert int(env_depth) == depth, \
-            'DEPTH_3D has been set in the current environment and ' \
-            'does not match with the value passed to this initialized'
-    else:
-        env.depth_3d = depth
-
-
-class Initializer_3D_Input(ProcessGroupInitializer):
-    """3D tensor parallel initialization among input.
-
-    :param num_group: The number of all tensor groups
-    :param depth: Depth of 3D parallelism
-    :param args: Args used in base class
-
-    :type num_group: int
-    :type depth: int
-    """
-
-    def __init__(self, num_group: int, depth: int, *args):
-        super().__init__(*args)
-        self.num_group = num_group
-        self.depth = depth
-
-    def init_dist_group(self):
-        """Initialize 3D tensor parallel groups among input, and assign local_ranks and groups to each gpu.
-
-        :return: 3D tensor parallelism's information among input
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.PARALLEL_3D_INPUT
-        env.input_group_3d = mode
-
-        for h in range(self.num_group):
-            for i in range(self.depth):
-                for k in range(self.depth):
-                    ranks = [h * self.depth**3 + i + self.depth * (j + self.depth * k) for j in range(self.depth)]
-                    group = dist.new_group(ranks)
-
-                    if self.rank in ranks:
-                        local_rank = ranks.index(self.rank)
-                        group_world_size = len(ranks)
-                        process_group = group
-                        ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
-
-
-class Initializer_3D_Weight(ProcessGroupInitializer):
-    """3D tensor parallel initialization among weight.
-
-    :param num_group: The number of all tensor groups
-    :param depth: Depth of 3D parallelism
-    :param args: Args used in base class
-
-    :type num_group: int
-    :type depth: int
-    """
-
-    def __init__(self, num_group: int, depth: int, *args):
-        super().__init__(*args)
-        self.num_group = num_group
-        self.depth = depth
-
-    def init_dist_group(self):
-        """Initialize 3D tensor parallel groups among weight, and assign local_ranks and groups to each gpu.
-
-        :return: 3D tensor parallelism's information among weight
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.PARALLEL_3D_WEIGHT
-        env.weight_group_3d = mode
-
-        for h in range(self.num_group):
-            for k in range(self.depth):
-                for j in range(self.depth):
-                    ranks = [h * self.depth**3 + i + self.depth * (j + self.depth * k) for i in range(self.depth)]
-                    group = dist.new_group(ranks)
-
-                    if self.rank in ranks:
-                        local_rank = ranks.index(self.rank)
-                        group_world_size = len(ranks)
-                        process_group = group
-                        ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
-
-
-class Initializer_3D_Output(ProcessGroupInitializer):
-    """3D tensor parallel initialization among output.
-
-    :param num_group: The number of all tensor groups
-    :param depth: Depth of 3D parallelism
-    :param args: Args used in base class
-
-    :type num_group: int
-    :type depth: int
-    """
-
-    def __init__(self, num_group: int, depth: int, *args):
-        super().__init__(*args)
-        self.num_group = num_group
-        self.depth = depth
-
-    def init_dist_group(self):
-        """Initialize 3D tensor parallel groups among output, and assign local_ranks and groups to each gpu.
-
-        :return: 3D tensor parallelism's information among output
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.PARALLEL_3D_OUTPUT
-        env.output_group_3d = mode
-
-        for h in range(self.num_group):
-            for i in range(self.depth):
-                for j in range(self.depth):
-                    ranks = [h * self.depth**3 + i + self.depth * (j + self.depth * k) for k in range(self.depth)]
-                    group = dist.new_group(ranks)
-
-                    if self.rank in ranks:
-                        local_rank = ranks.index(self.rank)
-                        group_world_size = len(ranks)
-                        process_group = group
-                        ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_3D(ProcessGroupInitializer):
-    """Serve as the single entry point to 3D parallel initialization.
-
-    :param args: Args used to initialize ProcessGroupInitializer
-    """
-
-    def __init__(self, *args):
-        super().__init__(*args)
-        self.num_group = self.world_size // self.tensor_parallel_size
-        self.depth = round(math.pow(self.tensor_parallel_size, 1 / 3))
-        assert self.tensor_parallel_size == self.depth ** 3, \
-            f'3D depth ({self.depth}) if not cube root of tensor parallel size ({self.tensor_parallel_size})'
-        _check_depth_env_var(self.depth)
-
-        self.input_initializer = Initializer_3D_Input(self.num_group, self.depth, *args)
-        self.weight_initializer = Initializer_3D_Weight(self.num_group, self.depth, *args)
-        self.output_initializer = Initializer_3D_Output(self.num_group, self.depth, *args)
-
-    def init_dist_group(self):
-        """Initialize 3D tensor parallel groups, and assign local_ranks and groups to each gpu.
-        
-        :return: 3D tensor parallelism's information
-        :rtype: list of Tuples (local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        parallel_setting = [self.input_initializer.init_dist_group(), self.weight_initializer.init_dist_group(),
-                            self.output_initializer.init_dist_group()]
-        return parallel_setting
--- a/colossalai/context/process_group_initializer/initializer_data.py
+++ b/colossalai/context/process_group_initializer/initializer_data.py
-#!/usr/bin/env python
-# -*- encoding: utf-8 -*-
-
-from torch import distributed as dist
-
-from colossalai.registry import DIST_GROUP_INITIALIZER
-from .process_group_initializer import ProcessGroupInitializer
-from ..parallel_mode import ParallelMode
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_Data(ProcessGroupInitializer):
-    """A ProcessGroupInitializer for data parallelism.
-
-    :param args: Args used to initialize ProcessGroupInitializer
-    :param kwargs: Kwargs used to initialize ProcessGroupInitializer
-    """
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.num_data_parallel_group = self.world_size // self.data_parallel_size
-
-    def init_dist_group(self):
-        """Initialize data parallel groups, and assign local_ranks and groups to each gpu.
-
-        :return: Data parallelism's information
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.DATA
-
-        for i in range(self.num_data_parallel_group):
-            ranks = [i + j * self.num_data_parallel_group for j in range(self.data_parallel_size)]
-            group = dist.new_group(ranks)
-
-            if self.rank in ranks:
-                local_rank = ranks.index(self.rank)
-                group_world_size = len(ranks)
-                process_group = group
-                ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
--- a/colossalai/context/process_group_initializer/initializer_model.py
+++ b/colossalai/context/process_group_initializer/initializer_model.py
-#!/usr/bin/env python
-# -*- encoding: utf-8 -*-
-
-import torch.distributed as dist
-
-from colossalai.context import Config
-from colossalai.registry import DIST_GROUP_INITIALIZER
-from .process_group_initializer import ProcessGroupInitializer
-from ..parallel_mode import ParallelMode
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_Model(ProcessGroupInitializer):
-    """A ProcessGroupInitializer for model parallelism (model parallel group contains pipeline and tensor parallel
-    groups).
-
-    :param args: Args used to initialize ProcessGroupInitializer
-    :param kwargs: Kwargs used to initialize ProcessGroupInitializer
-    """
-
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.model_parallel_size = self.tensor_parallel_size * self.pipeline_parallel_size
-        self.num_group = self.world_size // self.model_parallel_size
-
-    def init_dist_group(self):
-        """Initialize model parallel groups, and assign local_ranks and groups to each gpu.
-
-        :return: (local_rank, group_world_size, process_group, ranks_in_group, mode)
-        :rtype: Tuple
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.MODEL
-
-        for i in range(self.num_group):
-            ranks = [i * self.model_parallel_size + j for j in range(self.model_parallel_size)]
-            group = dist.new_group(ranks)
-
-            if self.rank in ranks:
-                local_rank = ranks.index(self.rank)
-                group_world_size = len(ranks)
-                process_group = group
-                ranks_in_group = ranks
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
--- a/colossalai/context/process_group_initializer/initializer_moe.py
+++ b/colossalai/context/process_group_initializer/initializer_moe.py
-import torch.distributed as dist
-
-from colossalai.registry import DIST_GROUP_INITIALIZER
-from colossalai.global_variables import moe_env
-from .process_group_initializer import ProcessGroupInitializer
-from ..parallel_mode import ParallelMode
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_Moemodel(ProcessGroupInitializer):
-    """Model parallel initialization for MoE system.
-
-    :param moe_moel: Size of moe model parallel
-    :param moe_data: Size of moe data parallel
-    :param args: Args used in base class
-    :param kwargs: Kwargs used in base class
-
-    :type moe_model: int
-    :type moe_data: int
-    """
-    def __init__(self, moe_model, moe_data, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.moe_model = moe_model
-        self.moe_data = moe_data
-
-    def init_dist_group(self):
-        """Initialize model parallel groups in moe parallel environment,
-        and assign local_ranks and groups to each gpu.
-
-        :return: MoE model parallelism's information
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.MOE_MODEL
-
-        for i in range(self.moe_data):
-            ranks = [i * self.moe_model + j for j in range(self.moe_model)]
-            group = dist.new_group(ranks)
-
-            if self.rank in ranks:
-                local_rank = ranks.index(self.rank)
-                group_world_size = len(ranks)
-                process_group = group
-                ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_Moedata(ProcessGroupInitializer):
-    """Data parallel initialization for MoE system.
-
-    :param moe_moel: Size of moe model parallel
-    :param moe_data: Size of moe data parallel
-    :param args: Args used in base class
-    :param kwargs: Kwargs used in base class
-
-    :type moe_model: int
-    :type moe_data: int
-    """
-    def __init__(self, moe_model, moe_data, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.moe_model = moe_model
-        self.moe_data = moe_data
-
-    def init_dist_group(self):
-        """Initialize data parallel groups in moe parallel environment,
-        and assign local_ranks and groups to each gpu.
-
-        :return: MoE data parallelism's information
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.MOE_DATA
-
-        for i in range(self.moe_model):
-            ranks = [i + j * self.moe_model for j in range(self.moe_data)]
-            group = dist.new_group(ranks)
-
-            if self.rank in ranks:
-                local_rank = ranks.index(self.rank)
-                group_world_size = len(ranks)
-                process_group = group
-                ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_Moe(ProcessGroupInitializer):
-    """Serves as the single entry point to MoE parallel initialization.
-
-    :param args: Args used to initialize ProcessGroupInitializer
-    :param kwargs: Kwargs used to initialize ProcessGroupInitializer
-    """
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.moe_model = moe_env.model_parallel_size
-        self.moe_data = moe_env.data_parallel_size
-        self.model_initializer = Initializer_Moemodel(
-            self.moe_model, self.moe_data, *args, **kwargs)
-        self.data_initializer = Initializer_Moedata(
-            self.moe_model, self.moe_data, *args, **kwargs)
-
-    def init_dist_group(self):
-        """Initializes MoE parallel communication groups.
-
-        :return: MoE parallelism's information
-        :rtype: list of Tuples (local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        parallel_setting = [self.model_initializer.init_dist_group(),
-                            self.data_initializer.init_dist_group()]
-        return parallel_setting
--- a/colossalai/context/process_group_initializer/initializer_pipeline.py
+++ b/colossalai/context/process_group_initializer/initializer_pipeline.py
-#!/usr/bin/env python
-# -*- encoding: utf-8 -*-
-
-from torch import distributed as dist
-
-from colossalai.registry import DIST_GROUP_INITIALIZER
-from .process_group_initializer import ProcessGroupInitializer
-from ..parallel_mode import ParallelMode
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_Pipeline(ProcessGroupInitializer):
-    """A ProcessGroupInitializer for pipeline parallelism.
-
-    :param args: Args used to initialize ProcessGroupInitializer
-    :param kwargs: Kwargs used to initialize ProcessGroupInitializer
-    """
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.data_group_size = self.world_size // self.data_parallel_size
-        self.pipeline_stage_size = self.data_group_size // self.pipeline_parallel_size
-
-    def init_dist_group(self):
-        """Initialize pipeline parallel groups, and assign local_ranks and groups to each gpu.
-
-        :return: Pipeline parallelism's information
-        :rtype: list of Tuples (local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        dist_settings = list()
-        for i in range(self.data_parallel_size):
-            for j in range(self.pipeline_stage_size):
-                pipe_ranks = list(
-                    range(i * self.data_group_size + j,
-                          (i + 1) * self.data_group_size,
-                          self.pipeline_stage_size))
-                pipe_group_size = len(pipe_ranks)
-                pipe_group = dist.new_group(pipe_ranks)
-
-                if self.rank in pipe_ranks:
-                    local_rank = pipe_ranks.index(self.rank)
-                    group_world_size = pipe_group_size
-                    process_group = pipe_group
-                    ranks_in_group = pipe_ranks
-                    dist_settings.append(
-                        tuple((local_rank, group_world_size,
-                               process_group, ranks_in_group,
-                               ParallelMode.PIPELINE)))
-
-        return dist_settings
--- a/colossalai/context/process_group_initializer/initializer_sequence.py
+++ b/colossalai/context/process_group_initializer/initializer_sequence.py
-#!/usr/bin/env python
-# -*- encoding: utf-8 -*-
-import torch.distributed as dist
-
-from colossalai.registry import DIST_GROUP_INITIALIZER
-from .initializer_tensor import Initializer_Tensor
-from .process_group_initializer import ProcessGroupInitializer
-from ..parallel_mode import ParallelMode
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_Sequence_DP(ProcessGroupInitializer):
-    """A ProcessGroupInitializer for sequence parallelism all-reduce.
-
-    In Sequence Parallelism, each GPU holds the full copy of model weights,
-    thus, gradient all-reduce occurs across all processes in the same pipeline stage
-
-    :param args: Args used to initialize ProcessGroupInitializer
-    :param kwargs: Kwargs used to initialize ProcessGroupInitializer
-    """
-
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.dp_size = self.world_size // self.pipeline_parallel_size
-        self.num_group = self.pipeline_parallel_size
-
-    def init_dist_group(self):
-        """Initialize Sequence Parallel process groups used for gradient all-reduce.
-
-        :return: (local_rank, group_world_size, process_group, ranks_in_group, mode)
-        :rtype: Tuple
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.SEQUENCE_DP
-
-        for i in range(self.num_group):
-            ranks = [i * self.dp_size + j for j in range(self.dp_size)]
-            group = dist.new_group(ranks)
-
-            if self.rank in ranks:
-                local_rank = ranks.index(self.rank)
-                group_world_size = len(ranks)
-                process_group = group
-                ranks_in_group = ranks
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_Sequence(ProcessGroupInitializer):
-    """A ProcessGroupInitializer for sequence parallelism.
-
-    :param args: Args used to initialize ProcessGroupInitializer
-    :param kwargs: Kwargs used to initialize ProcessGroupInitializer
-    """
-    def __init__(self,
-                 *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        # reuse tensor parallel initializer code
-        self._sequence_initializer = Initializer_Tensor(*args, **kwargs)
-        self._sequence_dp_initializer = Initializer_Sequence_DP(*args, **kwargs)
-
-    def init_dist_group(self):
-        """Initialize Sequence parallel process groups and assign local_ranks and groups to each gpu.
-
-        Sequence parallelism requires 2 process groups. The first is for model forward where several processes
-        exchange paritial query, key and value embedding to compute self attention values. The second is for
-        all-reduce to synchronize the model parameters.
-
-        :return: Sequence parallelism's information
-        :rtype: list of Tuples (local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-
-        parallel_setting = []
-
-        local_rank, group_world_size, process_group, ranks_in_group, mode = self._sequence_initializer.init_dist_group()
-        # change mode to sequence
-        mode = ParallelMode.SEQUENCE
-
-        parallel_setting.append((local_rank, group_world_size, process_group, ranks_in_group, mode))
-        parallel_setting.append(self._sequence_dp_initializer.init_dist_group())
-        return parallel_setting
--- a/colossalai/context/process_group_initializer/initializer_tensor.py
+++ b/colossalai/context/process_group_initializer/initializer_tensor.py
-#!/usr/bin/env python
-# -*- encoding: utf-8 -*-
-
-import torch.distributed as dist
-
-from colossalai.registry import DIST_GROUP_INITIALIZER
-from .process_group_initializer import ProcessGroupInitializer
-from ..parallel_mode import ParallelMode
-
-
-@DIST_GROUP_INITIALIZER.register_module
-class Initializer_Tensor(ProcessGroupInitializer):
-    """A ProcessGroupInitializer for tensor parallelism.
-
-    :param args: Args used to initialize ProcessGroupInitializer
-    :param kwargs: Kwargs used to initialize ProcessGroupInitializer
-    """
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.num_tensor_parallel_group = self.world_size // self.tensor_parallel_size
-
-    def init_dist_group(self):
-        """Initialize tensor parallel groups, and assign local_ranks and groups to each gpu.
-
-        :return: Tensor parallelism's information
-        :rtype: Tuple(local_rank, group_world_size, process_group, ranks_in_group, mode)
-        """
-        local_rank = None
-        ranks_in_group = None
-        process_group = None
-        group_world_size = None
-        mode = ParallelMode.TENSOR
-
-        for i in range(self.num_tensor_parallel_group):
-            ranks = [i * self.tensor_parallel_size + j for j in range(self.tensor_parallel_size)]
-            group = dist.new_group(ranks)
-
-            if self.rank in ranks:
-                local_rank = ranks.index(self.rank)
-                group_world_size = len(ranks)
-                process_group = group
-                ranks_in_group = ranks
-
-        return local_rank, group_world_size, process_group, ranks_in_group, mode
--- a/colossalai/context/process_group_initializer/process_group_initializer.py
+++ b/colossalai/context/process_group_initializer/process_group_initializer.py
-#!/usr/bin/env python
-# -*- encoding: utf-8 -*-
-
-from abc import ABC, abstractmethod
-
-from colossalai.context import Config
-
-
-class ProcessGroupInitializer(ABC):
-    """An object, knowing the parallelism configuration, that initializes parallel groups.
-
-    :param rank: The rank of current process
-    :param world_size: Size of whole communication world
-    :param config: Running configuration
-    :param data_parallel_size: Size of data parallel
-    :param pipeline_parallel_size: Size of pipeline parallel
-    :param tensor_parallel_size: Size of tensor parallel
-
-    :type rank: int
-    :type world_size: int
-    :type config: Config
-    :type data_parallel_size: int
-    :type pipeline_parallel_size: int
-    :type tensor_parallel_size: int
-    """
-    def __init__(self,
-                 rank: int,
-                 world_size: int,
-                 config: Config,
-                 data_parallel_size: int,
-                 pipeline_parallel_size: int,
-                 tensor_parallel_size: int
-                 ):
-        self.rank = rank
-        self.world_size = world_size
-        self.data_parallel_size = data_parallel_size
-        self.config = config
-        self.pipeline_parallel_size = pipeline_parallel_size
-        self.tensor_parallel_size = tensor_parallel_size
-        super().__init__()
-
-    @abstractmethod
-    def init_dist_group(self):
-        pass
--- a/colossalai/context/random/__init__.py
+++ b/colossalai/context/random/__init__.py
-from ._helper import (seed, set_mode, with_seed, add_seed,
-                      get_seeds, get_states, get_current_mode,
-                      set_seed_states, sync_states, moe_set_seed)
-
-__all__ = [
-    'seed', 'set_mode', 'with_seed', 'add_seed', 'get_seeds',
-    'get_states', 'get_current_mode', 'set_seed_states', 'sync_states',
-    'moe_set_seed'
-]
--- a/colossalai/context/random/__pycache__/__init__.cpython-36.pyc
+++ b/colossalai/context/random/__pycache__/__init__.cpython-36.pyc
--- a/colossalai/context/random/__pycache__/__init__.cpython-37.pyc
+++ b/colossalai/context/random/__pycache__/__init__.cpython-37.pyc
--- a/colossalai/context/random/__pycache__/_helper.cpython-36.pyc
+++ b/colossalai/context/random/__pycache__/_helper.cpython-36.pyc
--- a/colossalai/context/random/__pycache__/_helper.cpython-37.pyc
+++ b/colossalai/context/random/__pycache__/_helper.cpython-37.pyc