[Bugfix][Model] Fix Qwen3.5/Qwen3Next ignoring --dtype flag on older GPUs (#35617)

afd089f2 · lailoo · GitHub · 3ecd0bf9 · afd089f2 · afd089f2
Unverified Commit afd089f2 authored Mar 01, 2026 by lailoo Committed by GitHub Mar 01, 2026
Show whitespace changes
Inline Side-by-side

Showing with 0 additions and 5 deletions

vllm/model_executor/models/qwen3_5.py vllm/model_executor/models/qwen3_5.py +0 -2

vllm/model_executor/models/qwen3_next.py vllm/model_executor/models/qwen3_next.py +0 -3

No files found.
--- a/vllm/model_executor/models/qwen3_5.py
+++ b/vllm/model_executor/models/qwen3_5.py
@@ -274,7 +274,6 @@ class Qwen3_5DecoderLayer(Qwen3NextDecoderLayer):
                    1,
                    1,
                    config.hidden_size,
-                    dtype=config.dtype,
                ),
            )
            self.ffn_layer_scale = torch.nn.Parameter(
@@ -282,7 +281,6 @@ class Qwen3_5DecoderLayer(Qwen3NextDecoderLayer):
                    1,
                    1,
                    config.hidden_size,
-                    dtype=config.dtype,
                ),
            )

--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -463,7 +463,6 @@ class Qwen3NextGatedDeltaNet(nn.Module, MambaBase):
            group_size=None,
            norm_before_gate=True,
            device=current_platform.current_device(),
-            dtype=config.dtype,
        )
        self.out_proj = RowParallelLinear(
@@ -1018,7 +1017,6 @@ class Qwen3NextDecoderLayer(nn.Module):
                    1,
                    1,
                    config.hidden_size,
-                    dtype=config.dtype,
                ),
            )
            self.ffn_layer_scale = torch.nn.Parameter(
@@ -1026,7 +1024,6 @@ class Qwen3NextDecoderLayer(nn.Module):
                    1,
                    1,
                    config.hidden_size,
-                    dtype=config.dtype,
                ),
            )