Merge pull request #4 from hpcaitech/fix_gather

fix minor bug in gather

Merge pull request #4 from hpcaitech/fix_gather
fix minor bug in gather
90019096 · shenggan · GitHub · e96b76b0 · 77642096 · 90019096
Unverified Commit 90019096 authored Mar 07, 2022 by shenggan Committed by GitHub Mar 07, 2022
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 3 deletions

fastfold/distributed/comm.py fastfold/distributed/comm.py +3 -3

No files found.
--- a/fastfold/distributed/comm.py
+++ b/fastfold/distributed/comm.py
@@ -4,7 +4,7 @@ import torch
 import torch.distributed as dist
 from torch import Tensor
-from .core import (get_tensor_model_parallel_group, get_tensor_model_parallel_src_rank,
+from .core import (get_tensor_model_parallel_group, get_tensor_model_parallel_rank,
                   get_tensor_model_parallel_world_size)
 from .core import ensure_divisibility
@@ -33,7 +33,7 @@ def _split(tensor: Tensor, dim: int = -1) -> Tensor:
    split_size = divide(tensor.shape[dim], get_tensor_model_parallel_world_size())
    tensor_list = torch.split(tensor, split_size, dim=dim)
-    output = tensor_list[get_tensor_model_parallel_src_rank()].contiguous()
+    output = tensor_list[get_tensor_model_parallel_rank()].contiguous()
    return output
@@ -49,7 +49,7 @@ def _gather(tensor: Tensor, dim: int = -1) -> Tensor:
        tensor_list = output.chunk(get_tensor_model_parallel_world_size(), dim=1)
        dist.all_gather(list(tensor_list), tensor, group=get_tensor_model_parallel_group(), async_op=False)
    else:
-        tensor_list = [torch.ones_like(tensor) for _ in range(get_tensor_model_parallel_world_size())]
+        tensor_list = [torch.empty_like(tensor) for _ in range(get_tensor_model_parallel_world_size())]
        dist.all_gather(tensor_list, tensor, group=get_tensor_model_parallel_group(), async_op=False)
        output = torch.cat(tensor_list, dim=dim)