Fix broken trtllm_mha attn backend with gpt-oss (#9161)

6b7c2471 · Nicolas Castet · GitHub · a027a9b4 · 6b7c2471
Unverified Commit 6b7c2471 authored Aug 13, 2025 by Nicolas Castet Committed by GitHub Aug 13, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 1 deletion

python/sglang/srt/models/gpt_oss.py python/sglang/srt/models/gpt_oss.py +5 -1

No files found.
--- a/python/sglang/srt/models/gpt_oss.py
+++ b/python/sglang/srt/models/gpt_oss.py
@@ -293,8 +293,12 @@ class GptOssAttention(nn.Module):
            prefix=add_prefix("qkv_proj", prefix),
        )
+        # Choose dtype of sinks based on attention backend: trtllm_mha requires float32,
+        # others can use bfloat16
+        attn_backend = global_server_args_dict.get("attention_backend")
+        sinks_dtype = torch.float32 if attn_backend == "trtllm_mha" else torch.bfloat16
        self.sinks = nn.Parameter(
-            torch.empty(self.num_heads, dtype=torch.bfloat16), requires_grad=False
+            torch.empty(self.num_heads, dtype=sinks_dtype), requires_grad=False
        )
        self.o_proj = RowParallelLinear(