[XPU] properly handle q_descale on XPU as quant query input not supported (#39676)

Signed-off-by: Yan Ma <yan.ma@intel.com> Co-authored-by: Kunshang Ji <kunshang.ji@intel.com>

[XPU] properly handle q_descale on XPU as quant query input not supported (#39676)
Signed-off-by: Yan Ma <yan.ma@intel.com> Co-authored-by: Kunshang Ji <kunshang.ji@intel.com>
3beb57a2 · Yan Ma · GitHub · 8b553193 · 3beb57a2
Unverified Commit 3beb57a2 authored Apr 15, 2026 by Yan Ma Committed by GitHub Apr 15, 2026
Show whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

vllm/v1/attention/backends/flash_attn.py vllm/v1/attention/backends/flash_attn.py +3 -1

No files found.
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -1031,7 +1031,9 @@ class FlashAttentionImpl(AttentionImpl):
            window_size=sliding_window_size,
            softcap=self.logits_soft_cap,
            fa_version=self.vllm_flash_attn_version,
-            q_descale=layer._q_scale.expand(descale_shape),
+            q_descale=layer._q_scale.expand(descale_shape)
+            if self.supports_quant_query_input
+            else None,
            k_descale=layer._k_scale.expand(descale_shape),
            v_descale=layer._v_scale.expand(descale_shape),
            num_splits=1 if self.batch_invariant_enabled else 0,