Solve `torch.backends.cuda.sdp_kernel()` is deprecated.

f74c2d1d · MuWinds · GitHub · 1548c992 · f74c2d1d
Unverified Commit f74c2d1d authored Feb 15, 2025 by MuWinds Committed by GitHub Feb 15, 2025
Show whitespace changes
Inline Side-by-side

Showing with 2 additions and 1 deletion

ktransformers/server/backend/interfaces/transformers.py ktransformers/server/backend/interfaces/transformers.py +2 -1

No files found.
--- a/ktransformers/server/backend/interfaces/transformers.py
+++ b/ktransformers/server/backend/interfaces/transformers.py
@@ -13,6 +13,7 @@ from transformers import (
 from ktransformers.server.config.config import Config
 from ktransformers.server.schemas.base import ObjectID
 from ktransformers.server.utils.multi_timer import Profiler
+from torch.nn.attention import SDPBackend
 import torch
 import sys, os
 from ..base import ThreadContext, BackendInterfaceBase
@@ -292,7 +293,7 @@ class TransformersInterface(BackendInterfaceBase):
    def generate(self):
        self.profiler.set_counter("decode", 0)
        for _ in range(1, self.args.max_new_tokens):
-            with torch.backends.cuda.sdp_kernel(enable_flash=False, enable_mem_efficient=False, enable_math=True):
+            with torch.nn.attention.sdpa_kernel(backends=[SDPBackend.FLASH_ATTENTION, SDPBackend.MATH, SDPBackend.EFFICIENT_ATTENTION]):
                next_token = self.decode_one_tokens()
                self.profiler.inc("decode")
                if next_token == self.tokenizer.eos_token_id: