[kernel] Improve readability by letting the user of cache to do the decay.

PiperOrigin-RevId: 477359324

[kernel] Improve readability by letting the user of cache to do the decay.
PiperOrigin-RevId: 477359324
051f1c96 · Frederick Liu · A. Unique TensorFlower · a4235e26 · 051f1c96
Commit 051f1c96 authored Sep 27, 2022 by Frederick Liu Committed by A. Unique TensorFlower Sep 27, 2022
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 4 deletions

official/nlp/modeling/layers/kernel_attention.py official/nlp/modeling/layers/kernel_attention.py +5 -4

No files found.
--- a/official/nlp/modeling/layers/kernel_attention.py
+++ b/official/nlp/modeling/layers/kernel_attention.py
@@ -260,10 +260,11 @@ def causal_windowed_performer_attention(query_matrix,
    if window_decay is None or window_decay > 1.0 or window_decay < 0.0:
      raise ValueError("window_decay should be in (0.0, 1.0) and not None.")
-    kv = cache["kv"] + tf.einsum("BTHD,BTHO->BHOD", key_matrix, value_matrix)
+    kv = window_decay * cache["kv"] + tf.einsum(
-    cache["kv"] = kv * window_decay
+        "BTHD,BTHO->BHOD", key_matrix, value_matrix)
-    k_sum = cache["k_sum"] + tf.reduce_sum(key_matrix, axis=1)
+    cache["kv"] = kv
-    cache["k_sum"] = k_sum * window_decay
+    k_sum = window_decay * cache["k_sum"] + tf.reduce_sum(key_matrix, axis=1)
+    cache["k_sum"] = k_sum
    denominator = tf.einsum("BTHD,BHD->BTH", query_matrix, k_sum)
    attention = tf.einsum("BTHD,BHOD,BTH->BTHO", query_matrix, kv,
                          1.0 / (denominator + _NUMERIC_STABLER))