[feat] 适配block和channel fp8, 添加dp attention功能

[pd] 修改非堆成切分的判断, pd分离使用默认调度，set VLLM_USE_PD_SPLIT=1 [perf](fused-moe): 预打包 Marlin W16A16 MoE 权重，降低 warmup 显存峰值 [fix]修复丢弃MTP代码报错，pp+chunkprefill多并发input ids更新bug, 修复不开启融合图的断言错误, PP 场景 decode 阶段 token 被误丢弃导致卡住

[feat] 适配block和channel fp8, 添加dp attention功能
[pd] 修改非堆成切分的判断, pd分离使用默认调度，set VLLM_USE_PD_SPLIT=1 [perf](fused-moe): 预打包 Marlin W16A16 MoE 权重，降低 warmup 显存峰值 [fix]修复丢弃MTP代码报错，pp+chunkprefill多并发input ids更新bug, 修复不开启融合图的断言错误, PP 场景 decode 阶段 token 被误丢弃导致卡住
2b7b1a31 · zhuwenwen · 2eda94c6 · 2b7b1a31 · 2b7b1a31
Commit 2b7b1a31 authored Feb 10, 2026 by zhuwenwen
Hide whitespace changes
Inline Side-by-side

Showing with 17 additions and 0 deletions

vllm/v1/worker/gpu_worker.py vllm/v1/worker/gpu_worker.py +7 -0

vllm/zero_overhead/v1/eagle.py vllm/zero_overhead/v1/eagle.py +10 -0

No files found.
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -17,6 +17,7 @@ from vllm.distributed import (ensure_model_parallel_initialized,
                              set_custom_all_reduce)
 from vllm.distributed.kv_transfer import ensure_kv_transfer_initialized
 from vllm.distributed.parallel_state import get_pp_group, get_tp_group
+from vllm.model_executor.layers.dp_attention import initialize_dp_attention
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.model_executor import set_random_seed
@@ -30,6 +31,7 @@ from vllm.v1.worker.gpu_model_runner import GPUModelRunner
 from vllm.v1.worker.worker_base import WorkerBase
 from vllm.zero_overhead.utils import zero_overhead_stream
 from vllm.zero_overhead.v1.gpu_model_runner import V1ZeroModelRunner
+from vllm.forward_context import (set_warming_up, get_warming_up)

 logger = init_logger(__name__)

@@ -260,6 +262,7 @@ class Worker(WorkerBase):
        # warm up sizes that are not in cudagraph capture sizes,
        # but users still want to compile for better performance,
        # e.g. for the max-num-batched token size in chunked prefill.
+        set_warming_up(True)
        warmup_sizes = self.vllm_config.compilation_config.compile_sizes.copy()
        if not self.model_config.enforce_eager:
            warmup_sizes = [
@@ -297,6 +300,7 @@ class Worker(WorkerBase):
        # Reset the seed to ensure that the random state is not affected by
        # the model initialization and profiling.
        set_random_seed(self.model_config.seed)
+        set_warming_up(False)

    def get_model(self) -> nn.Module:
        return self.model_runner.get_model()
@@ -398,6 +402,9 @@ def init_worker_distributed_environment(
                                      parallel_config.pipeline_parallel_size)

    ensure_kv_transfer_initialized(vllm_config)
+    
+    if vllm_config.parallel_config.enable_dp_attention:
+        initialize_dp_attention(vllm_config, backend)


 def _check_if_gpu_supports_dtype(torch_dtype: torch.dtype):

--- a/vllm/zero_overhead/v1/eagle.py
+++ b/vllm/zero_overhead/v1/eagle.py
@@ -111,6 +111,9 @@ class V1ZeroEagleProposer(EagleProposer):
            num_input_tokens = self.vllm_config.pad_for_cudagraph(num_tokens)
        else:
            num_input_tokens = num_tokens
+            
+        if self.enable_dp_attention:
+            num_input_tokens = round_up(num_input_tokens, self.attn_tp_size)

        num_pad, num_tokens_across_dp = self.get_dp_padding(num_input_tokens)
        num_input_tokens += num_pad
@@ -202,6 +205,13 @@ class V1ZeroEagleProposer(EagleProposer):
            input_batch_size = self.vllm_config.pad_for_cudagraph(batch_size)
        else:
            input_batch_size = batch_size
+        
+        # dp attention need all dp rank process same number tokens
+        if self.enable_dp_attention:
+            input_batch_size = round_up(input_batch_size, self.attn_tp_size)
+            num_pad, _ = self.get_dp_padding(input_batch_size)
+            input_batch_size += num_pad
+
        attn_metadata.num_actual_tokens = batch_size
        attn_metadata.max_query_len = 1
        attn_metadata.query_start_loc = self.arange[:batch_size + 1]