Merging PR #12536

Merged via CLI script

Merging PR #12536
Merged via CLI script
4c3aac51 · Chen Zhang · GitHub · bc1bdece · 4c3aac51
Unverified Commit 4c3aac51 authored Feb 06, 2025 by Chen Zhang Committed by GitHub Feb 05, 2025
Show whitespace changes
Inline Side-by-side

Showing with 22 additions and 6 deletions

vllm/attention/layer.py vllm/attention/layer.py +22 -6

No files found.
--- a/vllm/attention/layer.py
+++ b/vllm/attention/layer.py
@@ -156,8 +156,12 @@ class Attention(nn.Module):
        kv_cache: torch.Tensor,
        attn_metadata: AttentionMetadata,
    ) -> torch.Tensor:
-        if self.calculate_kv_scales and \
+        # NOTE: please avoid accessing `kv_cache` and `attn_metadata` arguments
-            attn_metadata.enable_kv_scales_calculation:
+        # directly, use `self.kv_cache` and
+        # `get_forward_context().attn_metadata` instead.
+        if self.calculate_kv_scales:
+            ctx_attn_metadata = get_forward_context().attn_metadata
+            if ctx_attn_metadata.enable_kv_scales_calculation:
                self.calc_kv_scales(key, value)
        if self.use_output:
            output = torch.empty_like(query)
@@ -172,15 +176,27 @@ class Attention(nn.Module):
            if value is not None:
                value = value.view(-1, self.num_kv_heads, self.head_size)
            if self.use_direct_call:
-                unified_attention_with_output(query, key, value, output,
+                forward_context: ForwardContext = get_forward_context()
-                                              self.layer_name)
+                ctx_attn_metadata = forward_context.attn_metadata
+                self_kv_cache = self.kv_cache[forward_context.virtual_engine]
+                self.impl.forward(self,
+                                  query,
+                                  key,
+                                  value,
+                                  self_kv_cache,
+                                  ctx_attn_metadata,
+                                  output=output)
            else:
                torch.ops.vllm.unified_attention_with_output(
                    query, key, value, output, self.layer_name)
            return output.view(-1, hidden_size)
        else:
            if self.use_direct_call:
-                return unified_attention(query, key, value, self.layer_name)
+                forward_context = get_forward_context()
+                ctx_attn_metadata = forward_context.attn_metadata
+                self_kv_cache = self.kv_cache[forward_context.virtual_engine]
+                return self.impl.forward(self, query, key, value,
+                                         self_kv_cache, ctx_attn_metadata)
            else:
                return torch.ops.vllm.unified_attention(
                    query, key, value, self.layer_name)