Commits · e79c3e83a840d9cd24cf2eee804d606605f41031 · OpenDAS / TransformerEngine

23 Feb, 2026 2 commits
- Fix some bug of nmz fp8 · e79c3e83
  wenjh authored Feb 23, 2026
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  e79c3e83
- Enable fp8 on nmz · 1d95abb9
  wenjh authored Feb 23, 2026
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  1d95abb9
23 Jan, 2026 1 commit
- Refine the constraints while using lightop in gemm.py · 591fa00a
  wenjh authored Jan 23, 2026
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  591fa00a
21 Jan, 2026 1 commit

Add NVTE_USE_LIGHTOP env var to control lightop import · 3e704972

maxiao3 authored Jan 21, 2026


Signed-off-by: maxiao3 <maxiao3@sugon.com>

See merge request dcutoolkit/deeplearing/TransformerEngine!71

3e704972

30 Oct, 2025 2 commits
- [DCU] fix some bug · 5cc8ee3e
  zhaochao authored Oct 30, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  5cc8ee3e
- [DCU]fix main_grad no exit · bd5a6e86
  tabuchixiangcai3 authored Oct 30, 2025
```
Signed-off-by: Tangao <2205747538@qq.com>
```
  bd5a6e86
23 Oct, 2025 2 commits
- fix some note · 183a88cf
  zhaochao authored Oct 23, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  183a88cf
- [DCU]Fix the dimension bug in the MLA under the FlashAttention backend. · ca2958a8
  zhaochao authored Oct 23, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  ca2958a8
20 Oct, 2025 1 commit

[DCU]Fix MPI root support, enable int8 simulation and batched_inear to access... · 29271c40

tabuchixiangcai3 authored Oct 20, 2025


[DCU]Fix MPI root support, enable int8 simulation and batched_inear to access non-existent. main_grad
Signed-off-by: Tangao <2205747538@qq.com>

29271c40

16 Oct, 2025 2 commits
- Update activation offload code to align with the official version · f8d68a97
  dongcl authored Oct 16, 2025
  
  f8d68a97
- [DCU] remove redundant gemm · 6d43cba8
  yuguo authored Oct 16, 2025
  
  6d43cba8
13 Oct, 2025 1 commit
- [DCU] remove channelwise int8 group gemm · 04ef76dd
  yuguo authored Oct 13, 2025
  
  04ef76dd
28 Sep, 2025 1 commit
- bug fix · 650cb815
  dongchl authored Sep 28, 2025
  
  650cb815
24 Sep, 2025 1 commit
- support activation offloading · 162e32d4
  dongcl authored Sep 24, 2025
  
  162e32d4
19 Sep, 2025 2 commits
- support activation offloading · cd4cdf80
  dongcl authored Sep 19, 2025
  
  cd4cdf80
- [DCU] fix · b15412aa
  yuguo authored Sep 19, 2025
  
  b15412aa
18 Sep, 2025 3 commits
- Fix w8a8 lightop restriction · 803be71d
  wenjh authored Sep 18, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  803be71d
- Enable lightop w8a8 · 3f800f01
  wenjh authored Sep 18, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  3f800f01
- [DCU] fix · 00fcd784
  yuguo authored Sep 18, 2025
  
  00fcd784
02 Sep, 2025 1 commit
- Fix build problems while not support fp4 · 8e0fd518
  wenjh authored Sep 02, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  8e0fd518
28 Aug, 2025 2 commits

[PyTorch] Disable determinism for sm100 (#2130) · fedd9ddc

Charlene Yang authored Aug 28, 2025



* disable determinism for sm100+ and cudnn<9.14
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* fix remaining CI failures
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* revert some changes
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* revert more changes
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* remove sm100 from determinism table
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

---------
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

fedd9ddc

[DCU] fix bugs · 546bb548
yuguo authored Aug 28, 2025

546bb548

27 Aug, 2025 2 commits

Further relax constraints to cuDNN 9.13 for disabling fused attn for kv caching (#2121) · 1d1e8efe
Kshitij Lakhani authored Aug 27, 2025
```
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>
```
1d1e8efe

[PyTorch] Add test for TRT integration + fix for mxfp8 export (#2083) · f8d2c50e

Paweł Gadziński authored Aug 20, 2025



* code drop
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* fix
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>

* fix
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>

---------
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

f8d2c50e

26 Aug, 2025 3 commits

[PyTorch] Debug Mcore wgrad fusion with te.ops (#2097) · e94041a5

Tim Moon authored Aug 22, 2025



* Return dummy wgrad tensors when requested by Mcore
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Apply suggestions from code review
Co-authored-by: Jan Bielak <janekb04@icloud.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

---------
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Jan Bielak <janekb04@icloud.com>

e94041a5

[PyTorch] Avoid garbage collection when capturing a CUDA Graph (#2092) · 9f065fa2
Tim Moon authored Aug 20, 2025
```
Avoid garbage collection when capturing a CUDA Graph
Signed-off-by: Tim Moon <tmoon@nvidia.com>
```
9f065fa2
[DCU] fix · 2e870ed9
yuguo authored Aug 26, 2025

2e870ed9

25 Aug, 2025 1 commit
- [DCU] fix moe tensorwise int8 · 059d92e2
  yuguo authored Aug 25, 2025
  
  059d92e2
23 Aug, 2025 2 commits
- [DCU] tensorwise int8 gemm surpport bias · 11864d3d
  yuguo authored Aug 23, 2025
  
  11864d3d
- [DCU] fix tensorwise int8 moe bugs · 32edae18
  yuguo authored Aug 23, 2025
  
  32edae18
21 Aug, 2025 2 commits
- fix · 0cf10d1c
  yuguo authored Aug 21, 2025
  
  0cf10d1c
- [DCU] tensorwise int8 train opt · 7a923605
  yuguo authored Aug 21, 2025
  
  7a923605
19 Aug, 2025 1 commit
- add swap env · d19a5a44
  evt_fugx1 authored Aug 19, 2025
  
  d19a5a44
18 Aug, 2025 1 commit

[PyTorch] Check if the given recipe is supported in `fp8_autocast` (#2073) · 0e3e270f

Xin Yao authored Aug 19, 2025



* check if the given recipe is supported in fp8_autocast
Signed-off-by: Xin Yao <xiny@nvidia.com>

* resolve comments
Signed-off-by: Xin Yao <xiny@nvidia.com>

* check only when enabled
Signed-off-by: Xin Yao <xiny@nvidia.com>

---------
Signed-off-by: Xin Yao <xiny@nvidia.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

0e3e270f

16 Aug, 2025 1 commit

fix: fixes multi head attention for context parallel: rotary embedding to use... · 6ba98d43

jomitchellnv authored Aug 15, 2025

fix: fixes multi head attention for context parallel: rotary embedding to use padded cu_seq_lens (#2077)

fix: fixes mha to use padded cu_seq_lens during cp
Signed-off-by: Jonathan Mitchell <jomitchell@nvidia.com>

6ba98d43

15 Aug, 2025 1 commit

Fuse linear+scale+add (#2042) · c654e4fe

Jan Bielak authored Aug 15, 2025



* Add `nvte_cublas_gemm_scaled`
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Support use of `alpha` and `beta` in `tex.generic_gemm`
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Support use of `alpha` and `beta` in `general_gemm`
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Support use of `alpha` and `beta` in `BasicLinear._functional_forward` and `BasicLinear._functional_backward`
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Add `ForwardLinearScaleAdd` fusion
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Add `BackwardLinearScale` fusion
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Apply suggestions from code review
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Remove calls to `validate_gemm_scale` from `BasicLinear`
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

---------
Signed-off-by: Jan Bielak <jbielak@nvidia.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

c654e4fe

14 Aug, 2025 4 commits

[Core] Add launch bounds to swizzle kernels (#2076) · 12065ac2

Kirthi Shankar Sivamani authored Aug 14, 2025



Add launch bounds to swizzle kernel, use empty scale inv
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

12065ac2

[PyTorch] Disable fused dbias-quantize kernel for unsupported recipes (#2007) · a169e9e7

Tim Moon authored Aug 13, 2025



* Unfused impl for dbias-quantize
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Unfused impl for dact-dbias-quantize
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Disable fused bgrad-quantize for unsupported recipes
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Remove unfused dbias-quantize impls

Not supported in the core lib.
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Support unfused impls in tex functions
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Tweaks
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Remove unused imports
Signed-off-by: Tim Moon <tmoon@nvidia.com>

---------
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

a169e9e7

[PyTorch] Avoid registering FP8 scale update in ops without backward pass (#2063) · 26b4b71a

Tim Moon authored Aug 13, 2025



Avoid registering FP8 recipe update in ops without backward pass
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

26b4b71a

[PyTorch] Register weight and bias params in linear op (#2027) · ccbc8cf4

Tim Moon authored Aug 13, 2025



* Register weight/bias params in linear op
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Tweak docs
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Make sure linear op checkpoint is backward-compatible
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Fix linter warning
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Check for invalid case before setting bias
Signed-off-by: Tim Moon <tmoon@nvidia.com>

---------
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

ccbc8cf4