update deepgemm interface

bcd4dc84 · zhuwenwen · 65bb0ebc · bcd4dc84
Commit bcd4dc84 authored Dec 22, 2025 by zhuwenwen
Show whitespace changes
Inline Side-by-side

Showing with 4 additions and 6 deletions

vllm/model_executor/models/deepseek_v2.py vllm/model_executor/models/deepseek_v2.py +4 -6

No files found.
--- a/vllm/model_executor/models/deepseek_v2.py
+++ b/vllm/model_executor/models/deepseek_v2.py
@@ -637,8 +637,8 @@ def sparse_attn_indexer(
                )
            else:
                logits = op.mqa_logits(
-                q_fp8[chunk.token_start:chunk.token_end],
+                q_fp8[chunk.token_start:chunk.token_end].half(),
-                (k_fp8, k_scale),
+                (k_fp8.half(), k_scale),
                weights[chunk.token_start:chunk.token_end],
                chunk.cu_seqlen_ks,
                chunk.cu_seqlen_ke,
@@ -691,11 +691,9 @@ def sparse_attn_indexer(
                max_model_len=max_model_len,
            )
        else:
-            padded_q_fp8_decode_tokens = padded_q_fp8_decode_tokens.half
-            kv_cache = kv_cache.half
            logits = gemmopt.paged_mqa_logits(
-                padded_q_fp8_decode_tokens,
+                padded_q_fp8_decode_tokens.half(),
-                kv_cache,
+                kv_cache.half(),
                weights[:num_padded_tokens],
                decode_metadata.seq_lens,
                decode_metadata.block_table,