Merge branch 'v0.9.2-dev-ep-bug-fix' into 'v0.9.2-dev'

fix: 修复ep的变量未定义 See merge request dcutoolkit/deeplearing/vllm!423

Merge branch 'v0.9.2-dev-ep-bug-fix' into 'v0.9.2-dev'
fix: 修复ep的变量未定义 See merge request dcutoolkit/deeplearing/vllm!423
a1abfaf3 · zhuwenwen · 3c74c91a · bee0b4e8 · a1abfaf3
Commit a1abfaf3 authored Feb 09, 2026 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 10 deletions

vllm/model_executor/models/deepseek_v2.py vllm/model_executor/models/deepseek_v2.py +2 -10

No files found.
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -421,13 +421,9 @@ class DeepseekV2MoE(nn.Module):
                            # Fix FP16 overflow
                            # See DeepseekV2DecoderLayer for more details.
                            # fp16 mode not fused quant
-                            if i_q is not None:
-                                i_q=iqis[0]
-                                i_s=iqis[1]
                            final_hidden_states = self.experts(hidden_states=hidden_states,
                                                            router_logits=router_logits,
                                                            i_q=i_q, i_s=i_s)
-                    
                        if shared_output is not None:
                            if hidden_states.dtype != torch.float16:
                                final_hidden_states = final_hidden_states + shared_output
@@ -468,13 +464,11 @@ class DeepseekV2MoE(nn.Module):
                            assert shared_output is not None
                            final_hidden_states += (shared_output * (1. / self.routed_scaling_factor))
                    else:
-                        if i_q is not None:
-                            i_q=iqis[0]
-                            i_s=iqis[1]
+                        if iqis is not None:
+                            i_q, i_s = iqis
                        final_hidden_states = self.experts(hidden_states=hidden_states,
                                                           router_logits=router_logits,
                                                           i_q=i_q, i_s=i_s)
-
                        if shared_output is not None:
                            if hidden_states.dtype != torch.float16:
                                final_hidden_states = final_hidden_states + shared_output
@@ -483,7 +477,6 @@ class DeepseekV2MoE(nn.Module):
                                # See DeepseekV2DecoderLayer for more details.
                                final_hidden_states = final_hidden_states + shared_output \
                                    * (1. / self.routed_scaling_factor)
-
        if self.tp_size > 1:
            if envs.VLLM_ENABLE_TBO:
                final_hidden_states = self.tbo_all_reduce(final_hidden_states)
@@ -491,7 +484,6 @@ class DeepseekV2MoE(nn.Module):
                final_hidden_states = (
                    self.experts.maybe_all_reduce_tensor_model_parallel(
                        final_hidden_states))
-
            return final_hidden_states.view(num_tokens, hidden_dim)