取出deepep的部分调试信息

df03e33b · yangql · 29523973 · df03e33b · df03e33b
Commit df03e33b authored Dec 23, 2025 by yangql
Showing with 2 additions and 2 deletions

vllm/model_executor/layers/fused_moe/modular_kernel.py vllm/model_executor/layers/fused_moe/modular_kernel.py +1 -1

vllm/v1/worker/gpu_model_runner.py vllm/v1/worker/gpu_model_runner.py +1 -1

No files found.
--- a/vllm/model_executor/layers/fused_moe/modular_kernel.py
+++ b/vllm/model_executor/layers/fused_moe/modular_kernel.py
@@ -922,7 +922,7 @@ class DeepGemmDisabledFusedMoEModularKernel(torch.nn.Module):
            num_ht_ll_tokens = envs.VLLM_MOE_HT_THRESHOLD
            num_tokens = hidden_states.size(0)
            logger.info("num_tokens=%d", num_tokens)
-            if num_tokens > num_ht_ll_tokens and False:
+            if num_tokens > num_ht_ll_tokens:
                
                prepare_finalize = self.prepare_finalize.ht_prepare_finalize
                fused_experts = self.fused_experts_ht

--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -1316,7 +1316,7 @@ class GPUModelRunnerBase(LoRAModelRunnerMixin):
         spec_decode_metadata,
         num_scheduled_tokens_np) = (self._prepare_inputs(scheduler_output))
        num_scheduled_tokens = scheduler_output.total_num_scheduled_tokens
-        logger.info("***********self.cudagraph_batch_sizes_max",self.cudagraph_batch_sizes[-1])
+
        if (self.use_cuda_graph
                and num_scheduled_tokens <= self.cudagraph_batch_sizes[-1]):
            # Use piecewise CUDA graphs.