delete unused files

da3f0934 · zhuwenwen · c4dd1fd4 · c4dd1fd4 · c4dd1fd4 · c4dd1fd4
Commit da3f0934 authored Apr 23, 2023 by zhuwenwen
20 changed files
--- a/colossalai/nn/layer/wrapper/__pycache__/lambda_wrapper.cpython-36.pyc
+++ b/colossalai/nn/layer/wrapper/__pycache__/lambda_wrapper.cpython-36.pyc
--- a/colossalai/nn/layer/wrapper/__pycache__/lambda_wrapper.cpython-37.pyc
+++ b/colossalai/nn/layer/wrapper/__pycache__/lambda_wrapper.cpython-37.pyc
--- a/colossalai/nn/layer/wrapper/__pycache__/pipeline_wrapper.cpython-36.pyc
+++ b/colossalai/nn/layer/wrapper/__pycache__/pipeline_wrapper.cpython-36.pyc
--- a/colossalai/nn/layer/wrapper/__pycache__/pipeline_wrapper.cpython-37.pyc
+++ b/colossalai/nn/layer/wrapper/__pycache__/pipeline_wrapper.cpython-37.pyc
--- a/colossalai/nn/layer/wrapper/lambda_wrapper.py
+++ b/colossalai/nn/layer/wrapper/lambda_wrapper.py
-#!/usr/bin/env python
-# -*- encoding: utf-8 -*-
-
-import torch.nn as nn
-
-from colossalai.builder import build_layer
-from colossalai.registry import LAYERS
-
-
-@LAYERS.register_module
-class LambdaWrapper(nn.Module):
-    """Wrap a function to nn.Module, which takes a config of layers and can fully access them
-
-    :param func: User customed function
-    :type func: Callable
-    :param layers_cfg: Config of layers, defaults to None
-    :type layers_cfg: dict, optional
-    """
-
-    def __init__(self, func, layers_cfg: dict = None):
-        super().__init__()
-        self.func = func
-        self.layers = self._build_layers(layers_cfg)
-
-    def _build_layers(self, layers_cfg: dict):
-        if layers_cfg is None:
-            return None
-        else:
-            layers = []
-
-            for cfg in layers_cfg:
-                layer = build_layer(cfg)
-                layers.append(layer)
-            return layers
-
-    def forward(self, *args, **kwargs):
-        return self.func(self, *args, **kwargs)
--- a/colossalai/nn/layer/wrapper/pipeline_wrapper.py
+++ b/colossalai/nn/layer/wrapper/pipeline_wrapper.py
-import torch.nn as nn
-import torch.distributed as dist
-from typing import List, Tuple, Union
-from colossalai.context import ParallelMode
-from colossalai.core import global_context as gpc
-
-
-class PipelineSharedModuleWrapper:
-    def __init__(self, pipeline_ranks: Union[List[int], Tuple[int]]) -> None:
-        assert len(pipeline_ranks) > 1, f'Expect len(pipeline_ranks) > 1, got {len(pipeline_ranks)}'
-        self.pipeline_ranks = pipeline_ranks
-        self.group = None
-        self.ranks_in_group = None
-        self._init_group()
-
-    def _init_group(self):
-        world_size = gpc.get_world_size(ParallelMode.GLOBAL)
-        dp_size = gpc.get_world_size(ParallelMode.DATA)
-        pp_size = gpc.get_world_size(ParallelMode.PIPELINE)
-        rank = gpc.get_global_rank()
-        num_dp_groups = world_size // dp_size
-        num_pp_stages = num_dp_groups // pp_size
-        for i in range(dp_size):
-            for j in range(num_pp_stages):
-                pipeline_ranks = list(
-                    range(i * num_dp_groups + j,
-                          (i + 1) * num_dp_groups,
-                          num_pp_stages))
-                sub_ranks = [pipeline_ranks[idx] for idx in self.pipeline_ranks]
-                group = dist.new_group(sub_ranks)
-                if rank in sub_ranks:
-                    self.group = group
-                    self.ranks_in_group = sub_ranks
-
-    def register_module(self, module: nn.Module):
-        assert self.ranks_in_group is not None, f'Rank {gpc.get_local_rank(ParallelMode.PIPELINE)} is not in pipeline_ranks {self.pipeline_ranks}'
-        src = self.ranks_in_group[self.pipeline_ranks[0]]
-        for p in module.parameters():
-            setattr(p, 'pipeline_shared_module_pg', self.group)
-            dist.broadcast(p, src, group=self.group)
-
-    def register_parameter(self, param: nn.Parameter):
-        assert self.ranks_in_group is not None, f'Rank {gpc.get_local_rank(ParallelMode.PIPELINE)} is not in pipeline_ranks {self.pipeline_ranks}'
-        src = self.ranks_in_group[self.pipeline_ranks[0]]
-        setattr(param, 'pipeline_shared_module_pg', self.group)
-        dist.broadcast(param, src, group=self.group)
--- a/colossalai/nn/loss/__init__.py
+++ b/colossalai/nn/loss/__init__.py
-from colossalai.global_variables import tensor_parallel_env as env
-from colossalai.nn.layer.utils import get_tensor_parallel_mode
-from torch import nn
-from torch.nn.modules.loss import *
-from torch.nn.modules.loss import _Loss
-
-from .loss_1d import VocabParallelCrossEntropyLoss1D
-from .loss_2d import CrossEntropyLoss2D, VocabParallelCrossEntropyLoss2D
-from .loss_2p5d import CrossEntropyLoss2p5D, VocabParallelCrossEntropyLoss2p5D
-from .loss_3d import CrossEntropyLoss3D, VocabParallelCrossEntropyLoss3D
-from .loss_moe import MoeCrossEntropyLoss, MoeLoss
-
-_parallel_cross_entropy = {
-    '2d': CrossEntropyLoss2D,
-    '2.5d': CrossEntropyLoss2p5D,
-    '3d': CrossEntropyLoss3D,
-}
-
-_vocab_parallel_cross_entropy = {
-    '1d': VocabParallelCrossEntropyLoss1D,
-    '2d': VocabParallelCrossEntropyLoss2D,
-    '2.5d': VocabParallelCrossEntropyLoss2p5D,
-    '3d': VocabParallelCrossEntropyLoss3D,
-}
-
-
-class CrossEntropyLoss(_Loss):
-
-    def __init__(self, reduction: bool = True, *args, **kwargs):
-        super().__init__()
-        tensor_parallel = get_tensor_parallel_mode()
-        if tensor_parallel is not None and env.vocab_parallel:
-            self.loss = _vocab_parallel_cross_entropy[tensor_parallel](reduction=reduction, *args, **kwargs)
-        elif tensor_parallel is None or tensor_parallel == '1d':
-            reduction = 'mean' if reduction else 'none'
-            self.loss = nn.CrossEntropyLoss(reduction=reduction, *args, **kwargs)
-        else:
-            self.loss = _parallel_cross_entropy[tensor_parallel](reduction=reduction, *args, **kwargs)
-
-    def forward(self, *args):
-        return self.loss(*args)
--- a/colossalai/nn/loss/__pycache__/__init__.cpython-36.pyc
+++ b/colossalai/nn/loss/__pycache__/__init__.cpython-36.pyc
--- a/colossalai/nn/loss/__pycache__/__init__.cpython-37.pyc
+++ b/colossalai/nn/loss/__pycache__/__init__.cpython-37.pyc
--- a/colossalai/nn/loss/__pycache__/loss_1d.cpython-36.pyc
+++ b/colossalai/nn/loss/__pycache__/loss_1d.cpython-36.pyc
--- a/colossalai/nn/loss/__pycache__/loss_1d.cpython-37.pyc
+++ b/colossalai/nn/loss/__pycache__/loss_1d.cpython-37.pyc
--- a/colossalai/nn/loss/__pycache__/loss_2d.cpython-36.pyc
+++ b/colossalai/nn/loss/__pycache__/loss_2d.cpython-36.pyc
--- a/colossalai/nn/loss/__pycache__/loss_2d.cpython-37.pyc
+++ b/colossalai/nn/loss/__pycache__/loss_2d.cpython-37.pyc
--- a/colossalai/nn/loss/__pycache__/loss_2p5d.cpython-36.pyc
+++ b/colossalai/nn/loss/__pycache__/loss_2p5d.cpython-36.pyc
--- a/colossalai/nn/loss/__pycache__/loss_2p5d.cpython-37.pyc
+++ b/colossalai/nn/loss/__pycache__/loss_2p5d.cpython-37.pyc
--- a/colossalai/nn/loss/__pycache__/loss_3d.cpython-36.pyc
+++ b/colossalai/nn/loss/__pycache__/loss_3d.cpython-36.pyc
--- a/colossalai/nn/loss/__pycache__/loss_3d.cpython-37.pyc
+++ b/colossalai/nn/loss/__pycache__/loss_3d.cpython-37.pyc
--- a/colossalai/nn/loss/__pycache__/loss_moe.cpython-36.pyc
+++ b/colossalai/nn/loss/__pycache__/loss_moe.cpython-36.pyc
--- a/colossalai/nn/loss/__pycache__/loss_moe.cpython-37.pyc
+++ b/colossalai/nn/loss/__pycache__/loss_moe.cpython-37.pyc
--- a/colossalai/nn/loss/loss_1d.py
+++ b/colossalai/nn/loss/loss_1d.py
-import torch
-from colossalai.context import ParallelMode
-from colossalai.core import global_context as gpc
-from colossalai.registry import LOSSES
-from torch.cuda.amp import custom_bwd, custom_fwd
-from torch.nn.modules.loss import _Loss
-
-
-class _VocabParallelCrossEntropy1D(torch.autograd.Function):
-
-    @staticmethod
-    @custom_fwd(cast_inputs=torch.float32)
-    def forward(ctx, vocab_parallel_logits, targets):
-
-        # Maximum value along vocab dimension across all GPUs.
-        logits_max = torch.max(vocab_parallel_logits, dim=-1)[0]
-        torch.distributed.all_reduce(logits_max,
-                                     op=torch.distributed.ReduceOp.MAX,
-                                     group=gpc.get_group(ParallelMode.PARALLEL_1D))
-        # Subtract the maximum value.
-        vocab_parallel_logits.sub_(logits_max.unsqueeze(dim=-1))
-
-        # Get the partition's vocab indecies
-        partition_vocab_size = vocab_parallel_logits.size()[-1]
-        rank = gpc.get_local_rank(ParallelMode.PARALLEL_1D)
-        vocab_start_index = partition_vocab_size * rank
-        vocab_end_index = vocab_start_index + partition_vocab_size
-
-        # Create a mask of valid vocab ids (1 means it needs to be masked).
-        target_mask = (targets < vocab_start_index) | (targets >= vocab_end_index)
-        masked_target = targets.clone() - vocab_start_index
-        masked_target[target_mask] = 0
-
-        # Get predicted-logits = logits[target].
-        # For Simplicity, we convert logits to a 2-D tensor with size
-        # [*, partition-vocab-size] and target to a 1-D tensor of size [*].
-        logits_2d = vocab_parallel_logits.view(-1, partition_vocab_size)
-        masked_target_1d = masked_target.view(-1)
-        arange_1d = torch.arange(start=0, end=logits_2d.size()[0], device=logits_2d.device)
-        predicted_logits_1d = logits_2d[arange_1d, masked_target_1d]
-        predicted_logits_1d = predicted_logits_1d.clone().contiguous()
-        predicted_logits = predicted_logits_1d.view_as(targets)
-        predicted_logits[target_mask] = 0.0
-        # All reduce is needed to get the chunks from other GPUs.
-        torch.distributed.all_reduce(predicted_logits,
-                                     op=torch.distributed.ReduceOp.SUM,
-                                     group=gpc.get_group(ParallelMode.PARALLEL_1D))
-
-        # Sum of exponential of logits along vocab dimension across all GPUs.
-        exp_logits = vocab_parallel_logits
-        torch.exp(vocab_parallel_logits, out=exp_logits)
-        sum_exp_logits = exp_logits.sum(dim=-1)
-        torch.distributed.all_reduce(sum_exp_logits,
-                                     op=torch.distributed.ReduceOp.SUM,
-                                     group=gpc.get_group(ParallelMode.PARALLEL_1D))
-
-        # Loss = log(sum(exp(logits))) - predicted-logit.
-        loss = torch.log(sum_exp_logits) - predicted_logits
-        # Store softmax, target-mask and masked-target for backward pass.
-        exp_logits.div_(sum_exp_logits.unsqueeze(dim=-1))
-        ctx.save_for_backward(exp_logits, target_mask, masked_target_1d)
-        return loss
-
-    @staticmethod
-    @custom_bwd
-    def backward(ctx, grad_output):
-
-        # Retreive tensors from the forward path.
-        softmax, target_mask, masked_target_1d = ctx.saved_tensors
-
-        # All the inputs have softmax as thier gradient.
-        grad_input = softmax
-        # For simplicity, work with the 2D gradient.
-        partition_vocab_size = softmax.size()[-1]
-        grad_2d = grad_input.view(-1, partition_vocab_size)
-
-        # Add the gradient from matching classes.
-        arange_1d = torch.arange(start=0, end=grad_2d.size()[0], device=grad_2d.device)
-        grad_2d[arange_1d, masked_target_1d] -= (1.0 - target_mask.view(-1).float())
-
-        # Finally elementwise multiplication with the output gradients.
-        grad_input.mul_(grad_output.unsqueeze(dim=-1))
-
-        return grad_input, None
-
-
-@LOSSES.register_module
-class VocabParallelCrossEntropyLoss1D(_Loss):
-    """
-    Vocab parallel cross entropy loss for 1D parallelism
-
-    :param reduction: whether to average the loss, defaults to True
-
-    :type reduction: bool, optional
-    """
-
-    def __init__(self, reduction=True):
-        super().__init__()
-        self.reduction_mean = reduction
-
-    def forward(self, logits, targets):
-        """Calculate loss between logits and targets
-
-        :param logits: Output logits of model
-        :param targets: True targets from data
-        """
-        loss = _VocabParallelCrossEntropy1D.apply(logits, targets)
-        if self.reduction_mean:
-            loss = loss.mean()
-        return loss