Standardise `get_rope` to use `rope_parameters["partial_rotary_factor"]`, not `rotary_dim` (#30389)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>

Standardise `get_rope` to use `rope_parameters["partial_rotary_factor"]`, not `rotary_dim` (#30389)
Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
cf3eacfe · Harry Mellor · GitHub · 92fea56f · cf3eacfe · cf3eacfe
Unverified Commit cf3eacfe authored Dec 11, 2025 by Harry Mellor Committed by GitHub Dec 11, 2025
20 changed files
--- a/vllm/model_executor/models/ouro.py
+++ b/vllm/model_executor/models/ouro.py
@@ -166,7 +166,6 @@ class OuroAttention(nn.Module):
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=max_position,
            rope_parameters=config.rope_parameters,
            dual_chunk_attention_config=dual_chunk_attention_config,

--- a/vllm/model_executor/models/persimmon.py
+++ b/vllm/model_executor/models/persimmon.py
@@ -134,7 +134,6 @@ class PersimmonAttention(nn.Module):
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=self.max_position_embeddings,
            rope_parameters=config.rope_parameters,
        )

--- a/vllm/model_executor/models/phi.py
+++ b/vllm/model_executor/models/phi.py
@@ -84,19 +84,18 @@ class PhiAttention(nn.Module):
        prefix: str = "",
    ):
        super().__init__()
-        self.total_num_heads = config.num_attention_heads
        self.hidden_size = config.hidden_size
-        self.head_size = self.hidden_size // self.total_num_heads
+        self.head_size = self.hidden_size // config.num_attention_heads
        tensor_model_parallel_world_size = get_tensor_model_parallel_world_size()
-        assert self.total_num_heads % tensor_model_parallel_world_size == 0
+        assert config.num_attention_heads % tensor_model_parallel_world_size == 0
-        self.num_heads = self.total_num_heads // tensor_model_parallel_world_size
+        self.num_heads = config.num_attention_heads // tensor_model_parallel_world_size
        # pylint: disable=C0103
        self.qkv_proj = QKVParallelLinear(
            self.hidden_size,
            self.head_size,
-            self.total_num_heads,
+            config.num_attention_heads,
            bias=True,
            quant_config=quant_config,
            prefix=f"{prefix}.qkv_proj",
@@ -109,13 +108,10 @@ class PhiAttention(nn.Module):
        )
        scaling = self.head_size**-0.5
-        rotary_dim = config.hidden_size // config.num_attention_heads
-        assert rotary_dim % 2 == 0
        max_position_embeddings = getattr(config, "max_position_embeddings", 2048)
        self.rotary_emb = get_rope(
            self.head_size,
-            rotary_dim=rotary_dim,
            max_position=max_position_embeddings,
            rope_parameters=config.rope_parameters,
        )

--- a/vllm/model_executor/models/phimoe.py
+++ b/vllm/model_executor/models/phimoe.py
@@ -352,7 +352,6 @@ class PhiMoEAttention(nn.Module):
        )
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=max_position,
            rope_parameters=rope_parameters,
            is_neox_style=True,

--- a/vllm/model_executor/models/plamo2.py
+++ b/vllm/model_executor/models/plamo2.py
@@ -574,7 +574,6 @@ class Plamo2AttentionMixer(nn.Module):
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=max_position,
            rope_parameters=config.rope_parameters,
        )

--- a/vllm/model_executor/models/plamo3.py
+++ b/vllm/model_executor/models/plamo3.py
@@ -179,7 +179,6 @@ class Plamo3AttentionMixer(nn.Module):
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=max_position,
            rope_parameters=rope_parameters,
        )

--- a/vllm/model_executor/models/qwen.py
+++ b/vllm/model_executor/models/qwen.py
@@ -114,7 +114,6 @@ class QWenAttention(nn.Module):
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=max_position_embeddings,
            rope_parameters=rope_parameters,
        )

--- a/vllm/model_executor/models/qwen2.py
+++ b/vllm/model_executor/models/qwen2.py
@@ -164,7 +164,6 @@ class Qwen2Attention(nn.Module):
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=max_position,
            rope_parameters=rope_parameters,
            dual_chunk_attention_config=dual_chunk_attention_config,

--- a/vllm/model_executor/models/qwen2_5_vl.py
+++ b/vllm/model_executor/models/qwen2_5_vl.py
@@ -624,9 +624,9 @@ class Qwen2_5_VisionTransformer(nn.Module):
        head_dim = self.hidden_size // self.num_heads
        self.rotary_pos_emb = get_rope(
            head_size=head_dim,
-            rotary_dim=head_dim // 2,
            max_position=8192,
            is_neox_style=True,
+            rope_parameters={"partial_rotary_factor": 0.5},
        )
        self.attn_backend = get_vit_attn_backend(

--- a/vllm/model_executor/models/qwen2_moe.py
+++ b/vllm/model_executor/models/qwen2_moe.py
@@ -244,7 +244,6 @@ class Qwen2MoeAttention(nn.Module):
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=max_position_embeddings,
            rope_parameters=rope_parameters,
            dual_chunk_attention_config=dual_chunk_attention_config,

--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -621,9 +621,9 @@ class Qwen2VisionTransformer(nn.Module):
        head_dim = embed_dim // num_heads
        self.rotary_pos_emb = get_rope(
            head_size=head_dim,
-            rotary_dim=head_dim // 2,
            max_position=8192,
            is_neox_style=True,
+            rope_parameters={"partial_rotary_factor": 0.5},
        )
        self.blocks = nn.ModuleList(

--- a/vllm/model_executor/models/qwen3.py
+++ b/vllm/model_executor/models/qwen3.py
@@ -111,7 +111,6 @@ class Qwen3Attention(nn.Module):
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=max_position,
            rope_parameters=rope_parameters,
            dual_chunk_attention_config=dual_chunk_attention_config,

--- a/vllm/model_executor/models/qwen3_moe.py
+++ b/vllm/model_executor/models/qwen3_moe.py
@@ -269,7 +269,6 @@ class Qwen3MoeAttention(nn.Module):
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=max_position_embeddings,
            rope_parameters=rope_parameters,
            dual_chunk_attention_config=dual_chunk_attention_config,

--- a/vllm/model_executor/models/qwen3_next.py
+++ b/vllm/model_executor/models/qwen3_next.py
@@ -747,7 +747,6 @@ class Qwen3NextAttention(nn.Module):
        self.rotary_emb = get_rope(
            head_size=self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=config.max_position_embeddings,
            rope_parameters=config.rope_parameters,
            dual_chunk_attention_config=self.dual_chunk_attention_config,

--- a/vllm/model_executor/models/qwen3_omni_moe_thinker.py
+++ b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
@@ -333,9 +333,9 @@ class Qwen3Omni_VisionTransformer(nn.Module):
        head_dim = self.hidden_size // self.num_heads
        self.rotary_pos_emb = get_rope(
            head_size=head_dim,
-            rotary_dim=head_dim // 2,
            max_position=8192,
            is_neox_style=True,
+            rope_parameters={"partial_rotary_factor": 0.5},
        )
        self.blocks = nn.ModuleList(

--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -340,9 +340,9 @@ class Qwen3_VisionTransformer(nn.Module):
        head_dim = self.hidden_size // self.num_heads
        self.rotary_pos_emb = get_rope(
            head_size=head_dim,
-            rotary_dim=head_dim // 2,
            max_position=8192,
            is_neox_style=True,
+            rope_parameters={"partial_rotary_factor": 0.5},
        )
        self.merger = Qwen3_VisionPatchMerger(

--- a/vllm/model_executor/models/seed_oss.py
+++ b/vllm/model_executor/models/seed_oss.py
@@ -161,7 +161,6 @@ class SeedOssAttention(nn.Module):
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=max_position,
            rope_parameters=rope_parameters,
        )

--- a/vllm/model_executor/models/solar.py
+++ b/vllm/model_executor/models/solar.py
@@ -160,7 +160,6 @@ class SolarAttention(nn.Module):
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=max_position_embeddings,
            rope_parameters=config.rope_parameters,
        )

--- a/vllm/model_executor/models/stablelm.py
+++ b/vllm/model_executor/models/stablelm.py
@@ -148,7 +148,6 @@ class StablelmAttention(nn.Module):
        )
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=self.config.max_position_embeddings,
            rope_parameters=self.config.rope_parameters,
        )

--- a/vllm/model_executor/models/starcoder2.py
+++ b/vllm/model_executor/models/starcoder2.py
@@ -112,7 +112,6 @@ class Starcoder2Attention(nn.Module):
        )
        self.rotary_emb = get_rope(
            self.head_dim,
-            rotary_dim=self.head_dim,
            max_position=self.max_position_embeddings,
            rope_parameters=config.rope_parameters,
            is_neox_style=True,