[Platform] allow platform to init dp group (#22243)

Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>

[Platform] allow platform to init dp group (#22243)
Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
db1764e4 · wangxiyuan · GitHub · 7f83b4ee · db1764e4 · db1764e4
Unverified Commit db1764e4 authored Oct 15, 2025 by wangxiyuan Committed by GitHub Oct 15, 2025
5 changed files
--- a/vllm/config/parallel.py
+++ b/vllm/config/parallel.py
@@ -334,7 +334,7 @@ class ParallelConfig:
                    self.get_next_dp_init_port(),
                    self.data_parallel_rank,
                    self.data_parallel_size,
-                    backend="gloo",
+                    backend=current_platform.dist_backend,
                )
            except DistNetworkError as e:
                # We only want to retry when the root cause is EADDRINUSE.

--- a/vllm/distributed/utils.py
+++ b/vllm/distributed/utils.py
@@ -415,7 +415,6 @@ class StatelessProcessGroup:
 def init_gloo_process_group(
-    backend: Backend,
    prefix_store: PrefixStore,
    group_rank: int,
    group_size: int,
@@ -432,7 +431,7 @@ def init_gloo_process_group(
            group_size,
        )
    else:
-        options = ProcessGroup.Options(backend=backend)
+        options = ProcessGroup.Options(backend="gloo")
        pg = ProcessGroup(
            prefix_store,
            group_rank,
@@ -504,24 +503,25 @@ def stateless_init_torch_distributed_process_group(
    # Use a PrefixStore to avoid accidental overrides of keys used by
    # different systems (e.g. RPC) in case the store is multi-tenant.
    prefix_store = PrefixStore(init_method, store)
+    try:
+        from vllm.platforms import current_platform
-    if backend == "gloo":
+        return current_platform.stateless_init_device_torch_dist_pg(
-        return init_gloo_process_group(
            backend=backend,
            prefix_store=prefix_store,
            group_rank=group_rank,
            group_size=group_size,
            timeout=timeout,
        )
-    from vllm.platforms import current_platform
+    except NotImplementedError:
+        # If platform doesn't implement stateless_init_device_torch_dist_pg, it
-    return current_platform.stateless_init_device_torch_dist_pg(
+        # will raise a NotImplementedError. In this case, we fall back to gloo.
-        backend=backend,
+        return init_gloo_process_group(
-        prefix_store=prefix_store,
+            prefix_store=prefix_store,
-        group_rank=group_rank,
+            group_rank=group_rank,
-        group_size=group_size,
+            group_size=group_size,
-        timeout=timeout,
+            timeout=timeout,
-    )
+        )
 def stateless_destroy_torch_distributed_process_group(pg: ProcessGroup) -> None:

--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -6,13 +6,10 @@ pynvml. However, it should not initialize cuda context.
 import os
 from collections.abc import Callable
-from datetime import timedelta
 from functools import cache, wraps
 from typing import TYPE_CHECKING, TypeVar
 import torch
-from torch.distributed import PrefixStore, ProcessGroup
-from torch.distributed.distributed_c10d import is_nccl_available
 from typing_extensions import ParamSpec
 # import custom ops, trigger op registration
@@ -455,37 +452,6 @@ class CudaPlatformBase(Platform):
    def get_static_graph_wrapper_cls(cls) -> str:
        return "vllm.compilation.cuda_graph.CUDAGraphWrapper"
-    @classmethod
-    def stateless_init_device_torch_dist_pg(
-        cls,
-        backend: str,
-        prefix_store: PrefixStore,
-        group_rank: int,
-        group_size: int,
-        timeout: timedelta,
-    ) -> ProcessGroup:
-        assert is_nccl_available()
-        pg: ProcessGroup = ProcessGroup(
-            prefix_store,
-            group_rank,
-            group_size,
-        )
-        from torch.distributed.distributed_c10d import ProcessGroupNCCL
-        backend_options = ProcessGroupNCCL.Options()
-        backend_options._timeout = timeout
-        backend_class = ProcessGroupNCCL(
-            prefix_store, group_rank, group_size, backend_options
-        )
-        backend_type = ProcessGroup.BackendType.NCCL
-        device = torch.device("cuda")
-        pg._set_default_backend(backend_type)
-        backend_class._set_sequence_number_for_group()
-        pg._register_backend(device, backend_type, backend_class)
-        return pg
    @classmethod
    def device_count(cls) -> int:
        return cuda_device_count_stateless()

--- a/vllm/platforms/interface.py
+++ b/vllm/platforms/interface.py
@@ -551,7 +551,7 @@ class Platform:
        """
        Init platform-specific torch distributed process group.
        """
-        raise RuntimeError(f"Unsupported torch distributed backend: {backend}")
+        raise NotImplementedError
    @classmethod
    def is_kv_cache_dtype_supported(

--- a/vllm/platforms/rocm.py
+++ b/vllm/platforms/rocm.py
@@ -2,13 +2,10 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import os
-from datetime import timedelta
 from functools import cache, lru_cache, wraps
 from typing import TYPE_CHECKING
 import torch
-from torch.distributed import PrefixStore, ProcessGroup
-from torch.distributed.distributed_c10d import is_nccl_available
 import vllm.envs as envs
 from vllm.logger import init_logger
@@ -476,37 +473,6 @@ class RocmPlatform(Platform):
    def get_static_graph_wrapper_cls(cls) -> str:
        return "vllm.compilation.cuda_graph.CUDAGraphWrapper"
-    @classmethod
-    def stateless_init_device_torch_dist_pg(
-        cls,
-        backend: str,
-        prefix_store: PrefixStore,
-        group_rank: int,
-        group_size: int,
-        timeout: timedelta,
-    ) -> ProcessGroup:
-        assert is_nccl_available()
-        pg: ProcessGroup = ProcessGroup(
-            prefix_store,
-            group_rank,
-            group_size,
-        )
-        from torch.distributed.distributed_c10d import ProcessGroupNCCL
-        backend_options = ProcessGroupNCCL.Options()
-        backend_options._timeout = timeout
-        backend_class = ProcessGroupNCCL(
-            prefix_store, group_rank, group_size, backend_options
-        )
-        backend_type = ProcessGroup.BackendType.NCCL
-        device = torch.device("cuda")
-        pg._set_default_backend(backend_type)
-        backend_class._set_sequence_number_for_group()
-        pg._register_backend(device, backend_type, backend_class)
-        return pg
    @classmethod
    def device_count(cls) -> int:
        return cuda_device_count_stateless()