remove envs.VLLM_USE_PA_PRINT_PARAM

06eb6e84 · zhuwenwen · b374a264 · 06eb6e84 · 06eb6e84
Commit 06eb6e84 authored Sep 22, 2025 by zhuwenwen
Showing with 0 additions and 12 deletions

vllm/attention/backends/rocm_flash_attn.py vllm/attention/backends/rocm_flash_attn.py +0 -6

vllm/v1/attention/backends/flash_attn.py vllm/v1/attention/backends/flash_attn.py +0 -6

No files found.
--- a/vllm/attention/backends/rocm_flash_attn.py
+++ b/vllm/attention/backends/rocm_flash_attn.py
@@ -1002,12 +1002,6 @@ class ROCmFlashAttentionImpl(AttentionImpl):
                tree_attention_masks_tensor = decode_meta.tree_attention_masks_tensor
                if envs.VLLM_USE_FLASH_ATTN_PA:
                    from flash_attn import vllm_flash_attn_with_kvcache
-                    if envs.VLLM_USE_PA_PRINT_PARAM:
-                        print("PA SIZE:")
-                        print(f"q.shape = {decode_query.unsqueeze(1).shape}, key_cache.shape = {key_cache.shape}, value_cache.shape = {value_cache.shape}, kv_cache_dtype = {self.kv_cache_dtype}")
-                        print(f"block_size= {block_size}, cache_seqlens.shape = {decode_meta.seq_lens_tensor.shape}, block_tables.shape = {decode_meta.block_tables.shape}")
-                        print(f"softmax_scale = {self.scale:.3f}, window_size = {self.sliding_window}, softcap = {self.logits_soft_cap}, alibi_slopes = {self.alibi_slopes}")
                    # output[num_prefill_tokens:] = self.fa_decode_attn_func(
                    output[num_prefill_tokens:] = vllm_flash_attn_with_kvcache(
                        q=decode_query.unsqueeze(1),  

--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -635,12 +635,6 @@ class FlashAttentionImpl(AttentionImpl):
                    num_splits=attn_metadata.max_num_splits,
                )
            else:
-                if envs.VLLM_USE_PA_PRINT_PARAM:
-                    print("PA SIZE:")
-                    print(f"q.shape = {query[:num_actual_tokens].shape}, key_cache.shape = {key_cache.shape}, value_cache.shape = {value_cache.shape}")
-                    print(f"cu_seqlens_q.shape = {cu_seqlens_q.shape}, max_seqlen_q = {max_seqlen_q}, seqused_k.shape = {seqused_k.shape}, max_seqlen_k = {max_seqlen_k}")
-                    print(f"softmax_scale = {self.scale:.3f}, alibi_slopes = {self.alibi_slopes}, window_size = {self.sliding_window}, block_tables.shape = {block_table.shape}, softcap = {self.logits_soft_cap}, scheduler_metadata = {scheduler_metadata}")
                vllm_flash_attn_varlen_func(
                    q=query[:num_actual_tokens],
                    k=key_cache,