Merge branch 'develop_v2.5' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine

9d26d942 · yuguo · 11bc1775 · 2e870ed9 · 9d26d942 · 9d26d942
Commit 9d26d942 authored Aug 26, 2025 by yuguo
Showing with 2 additions and 2 deletions

transformer_engine/pytorch/cpp_extensions/gemm.py transformer_engine/pytorch/cpp_extensions/gemm.py +1 -1

transformer_engine/pytorch/module/base.py transformer_engine/pytorch/module/base.py +1 -1

No files found.
--- a/transformer_engine/pytorch/cpp_extensions/gemm.py
+++ b/transformer_engine/pytorch/cpp_extensions/gemm.py
@@ -570,7 +570,7 @@ def general_grouped_gemm(
                dw.view(-1, dw.size(-1)),
                num_gemms,
                None,
-                TE_DType[out_dtype],
+                out_dtype,
                None,
                bias_dtype,
                gelu,

--- a/transformer_engine/pytorch/module/base.py
+++ b/transformer_engine/pytorch/module/base.py
@@ -1183,7 +1183,7 @@ class TransformerEngineBaseModule(torch.nn.Module, ABC):
            ):
                grad_bias = grad_output.dequantize().view(-1, grad_output.shape[-1]).sum(dim=0)
            else:
-                if isinstance(quantizer, Float8BlockQuantizer):
+                if isinstance(quantizer, Float8BlockQuantizer) or (isinstance(quantizer, Float8CurrentScalingQuantizer) and IS_HIP_EXTENSION):
                    # unfuse bgrad for now until cast_transpose + dgrad calculation is ready for Float8BlockQuantizer.
                    grad_bias = grad_output.view(-1, grad_output.shape[-1]).sum(dim=0)
                else: