[Fix] Use torch.empty for output in attention+quant fusion (#31785)

Signed-off-by: elvischenv <219235043+elvischenv@users.noreply.github.com>

[Fix] Use torch.empty for output in attention+quant fusion (#31785)
Signed-off-by: elvischenv <219235043+elvischenv@users.noreply.github.com>
7d6abdd0 · elvischenv · GitHub · a8ff2cca · 7d6abdd0
Unverified Commit 7d6abdd0 authored Mar 11, 2026 by elvischenv Committed by GitHub Mar 10, 2026
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 4 deletions

vllm/compilation/passes/fusion/attn_quant_fusion.py vllm/compilation/passes/fusion/attn_quant_fusion.py +2 -4

No files found.
--- a/vllm/compilation/passes/fusion/attn_quant_fusion.py
+++ b/vllm/compilation/passes/fusion/attn_quant_fusion.py
@@ -170,9 +170,8 @@ class AttentionFp8StaticQuantPattern(AttentionQuantPattern):
            kv_cache_dummy_dep: torch.Tensor,
        ) -> torch.Tensor:
            # attn output in quant_dtype
-            output_attn = torch.ops.aten.full.default(
+            output_attn = torch.empty(
                [q.shape[0], self.num_heads, self.head_size],
-                0.0,
                dtype=self.quant_dtype,
                device=q.device,
            )
@@ -271,9 +270,8 @@ class AttentionNvfp4QuantPattern(AttentionQuantPattern):
            kv_cache_dummy_dep: torch.Tensor,
        ) -> tuple[torch.Tensor, torch.Tensor]:
            # attention output in quant_dtype
-            output_attn = torch.ops.aten.full.default(
+            output_attn = torch.empty(
                [q.shape[0], self.num_heads, self.head_size // 2],
-                0.0,
                dtype=self.quant_dtype,
                device=q.device,
            )