Modularize fused experts and integrate PPLX kernels (#15956)

f9c069c8 · bnellnm · GitHub · 418d2f8b · f9c069c8 · f9c069c8
Unverified Commit f9c069c8 authored May 14, 2025 by bnellnm Committed by GitHub May 14, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 2 deletions

vllm/worker/worker.py vllm/worker/worker.py +2 -1

vllm/worker/xpu_worker.py vllm/worker/xpu_worker.py +2 -1

No files found.
--- a/vllm/worker/worker.py
+++ b/vllm/worker/worker.py
@@ -530,7 +530,8 @@ def init_worker_distributed_environment(
    init_distributed_environment(parallel_config.world_size, rank,
                                 distributed_init_method, local_rank)
    ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,
-                                      parallel_config.pipeline_parallel_size)
+                                      parallel_config.pipeline_parallel_size,
+                                      parallel_config.enable_expert_parallel)

    ensure_kv_transfer_initialized(vllm_config)


--- a/vllm/worker/xpu_worker.py
+++ b/vllm/worker/xpu_worker.py
@@ -176,7 +176,8 @@ class XPUWorker(LoRANotSupportedWorkerBase, Worker):

        ensure_model_parallel_initialized(
            parallel_config.tensor_parallel_size,
-            parallel_config.pipeline_parallel_size)
+            parallel_config.pipeline_parallel_size,
+            parallel_config.enable_expert_parallel)
        # global all_reduce needed for overall oneccl warm up
        torch.distributed.all_reduce(torch.zeros(1).xpu())