Commits · 03f1f664f1a1e1892be52cfe2e553a392a837171 · OpenDAS / TransformerEngine

27 Aug, 2025 4 commits
- Merge branch 'develop_v2.7' of... · 03f1f664
  yuguo authored Aug 27, 2025
```
Merge branch 'develop_v2.7' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine into release_v2.7
```
  03f1f664
- [DCU] fix compile · 5b6190b2
  yuguo authored Aug 27, 2025
  
  5b6190b2
- Merge branch 'release_v2.7' of https://github.com/NVIDIA/TransformerEngine into release_v2.7 · 2389ed3f
  yuguo authored Aug 27, 2025
  
  2389ed3f
- Merge commit '734bcedd' of... · 87e3e56e
  yuguo authored Aug 27, 2025
```
Merge commit '734bcedd' of https://github.com/NVIDIA/TransformerEngine
```
  87e3e56e
26 Aug, 2025 13 commits

Revert "[Common] PDL for Blockwise Quantization" (#2115) · 58c3ac80

jberchtold-nvidia authored Aug 26, 2025

Revert "[Common] PDL for Blockwise Quantization (#2066)"

This reverts commit ebca6153

.
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

58c3ac80

Bump cuDNN FE to 1.14.0 (#2072) · d2615d1c

vcherepanov-nv authored Aug 26, 2025



* Bump cuDNN FE to 1.14.0
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Change submodule hash
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Pick up a cuDNN FE fix
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* New model configs in tests
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Exclude cuDNN backend for some configs
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

---------
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

d2615d1c

Revert "[Common] PDL for Quantization Kernels" (#2114) · 4572dbef

jberchtold-nvidia authored Aug 26, 2025

Revert "[Common] PDL for Quantization Kernels (#2001)"

This reverts commit bfab8c67

.
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

4572dbef

[JAX] Add Shardy warning in GEMM custom call (#2101) · c638ac7e

Phuong Nguyen authored Aug 25, 2025



* added shardy warning
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>


---------
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>

c638ac7e

[PyTorch] Debug Mcore wgrad fusion with te.ops (#2097) · e94041a5

Tim Moon authored Aug 22, 2025



* Return dummy wgrad tensors when requested by Mcore
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Apply suggestions from code review
Co-authored-by: Jan Bielak <janekb04@icloud.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

---------
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Jan Bielak <janekb04@icloud.com>

e94041a5

[ TE-JAX ] Expose cp_strategy argument to DPA api (#2090) · 0168c268

Md Fahim Faysal Khan authored Aug 21, 2025



* added cp strategy arg to DPA api
Signed-off-by: Md Fahim Faysal Khan <mdfahimfaysa@nvidia.com>

* converted DPA cp_strategy to string
Signed-off-by: Md Fahim Faysal Khan <mdfahimfaysa@nvidia.com>

---------
Signed-off-by: Md Fahim Faysal Khan <mdfahimfaysa@nvidia.com>

0168c268

Fix incorrect version checks for atomic GEMM (#2095) · 3a4136b6

Tim Moon authored Aug 20, 2025



* Fix incorrect version checks for atomic GEMM
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Fix typo
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



---------
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

3a4136b6

[PyTorch] Avoid garbage collection when capturing a CUDA Graph (#2092) · 9f065fa2
Tim Moon authored Aug 20, 2025
```
Avoid garbage collection when capturing a CUDA Graph
Signed-off-by: Tim Moon <tmoon@nvidia.com>
```
9f065fa2

[JAX] Error checking for mesh resource and update GemmPrimitive to use... · 34150d1a

jberchtold-nvidia authored Aug 20, 2025


[JAX] Error checking for mesh resource and update GemmPrimitive to use global_mesh_resource().fsdp_resource (#2088)

* Enforce global MeshResource is set
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

* Use global_mesh_resource().fsdp_resource in gemm primitive
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

* Update tests
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

* Update gemm.py
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

* Update test_layer.py
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

---------
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

34150d1a

Merge branch 'develop_v2.5' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine · 2f11bd2e
yuguo authored Aug 26, 2025

2f11bd2e
[DCU] fix · 4927d10e
yuguo authored Aug 26, 2025

4927d10e
Merge branch 'develop_v2.5' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine · 9d26d942
yuguo authored Aug 26, 2025

9d26d942
[DCU] fix · 2e870ed9
yuguo authored Aug 26, 2025

2e870ed9

25 Aug, 2025 4 commits
- Merge branch 'develop_v2.5' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine · 11bc1775
  yuguo authored Aug 25, 2025
  
  11bc1775
- [DCU] fix moe tensorwise int8 · 059d92e2
  yuguo authored Aug 25, 2025
  
  059d92e2
- Merge branch 'develop_v2.5' · e12a1085
  wenjh authored Aug 25, 2025
  
  e12a1085
- Fix some test problem in pytorch unittest · 62550505
  wenjh authored Aug 25, 2025
  
  62550505
23 Aug, 2025 3 commits
- Merge branch 'develop_v2.5' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine · 374b85bd
  yuguo authored Aug 23, 2025
  
  374b85bd
- [DCU] tensorwise int8 gemm surpport bias · 11864d3d
  yuguo authored Aug 23, 2025
  
  11864d3d
- [DCU] fix tensorwise int8 moe bugs · 32edae18
  yuguo authored Aug 23, 2025
  
  32edae18
21 Aug, 2025 4 commits
- Merge branch 'develop_v2.5' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine · 1b971e27
  yuguo authored Aug 21, 2025
  
  1b971e27
- fix · 0cf10d1c
  yuguo authored Aug 21, 2025
  
  0cf10d1c
- Merge branch 'develop_v2.5' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine · 20065c44
  yuguo authored Aug 21, 2025
  
  20065c44
- [DCU] tensorwise int8 train opt · 7a923605
  yuguo authored Aug 21, 2025
  
  7a923605
20 Aug, 2025 1 commit
- Merge branch 'develop_v2.5_swap' into 'develop_v2.5' · 686e93cd
  yuguo authored Aug 20, 2025
```
add swap env

See merge request dcutoolkit/deeplearing/TransformerEngine!40
```
  686e93cd
19 Aug, 2025 1 commit
- add swap env · d19a5a44
  evt_fugx1 authored Aug 19, 2025
  
  d19a5a44
18 Aug, 2025 6 commits

Changed VERSION to 2.8.0.dev0 · 734bcedd
Przemek Tredak authored Aug 18, 2025
```
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
```
734bcedd
Changed VERSION to 2.7.0 · 0289e763
Przemek Tredak authored Aug 18, 2025
```
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
```
0289e763
[JAX] Fix for TE GEMM - Always AllGather RHS non-contracting dims with FSDP axis (#2075) · 3fc1e4bf
Phuong Nguyen authored Aug 18, 2025
```
* fix fsdp
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>

---------
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>
```
3fc1e4bf

[PyTorch] Check if the given recipe is supported in `fp8_autocast` (#2073) · 0e3e270f

Xin Yao authored Aug 19, 2025



* check if the given recipe is supported in fp8_autocast
Signed-off-by: Xin Yao <xiny@nvidia.com>

* resolve comments
Signed-off-by: Xin Yao <xiny@nvidia.com>

* check only when enabled
Signed-off-by: Xin Yao <xiny@nvidia.com>

---------
Signed-off-by: Xin Yao <xiny@nvidia.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

0e3e270f

Update list of authorized CI users (#2078) · 988af0fd

Tim Moon authored Aug 18, 2025



* Update list of authorized CI users
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Update .github/workflows/trigger-ci.yml
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

988af0fd

[JAX] Fix Flax variable creation when quantizers are created directly from a recipe (#2079) · 757fd1cf
jberchtold-nvidia authored Aug 18, 2025
```
Fix flax variables when creating quantizers directly from a recipe
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>
```
757fd1cf

16 Aug, 2025 1 commit

fix: fixes multi head attention for context parallel: rotary embedding to use... · 6ba98d43

jomitchellnv authored Aug 15, 2025

fix: fixes multi head attention for context parallel: rotary embedding to use padded cu_seq_lens (#2077)

fix: fixes mha to use padded cu_seq_lens during cp
Signed-off-by: Jonathan Mitchell <jomitchell@nvidia.com>

6ba98d43

15 Aug, 2025 3 commits

Fuse linear+scale+add (#2042) · c654e4fe

Jan Bielak authored Aug 15, 2025



* Add `nvte_cublas_gemm_scaled`
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Support use of `alpha` and `beta` in `tex.generic_gemm`
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Support use of `alpha` and `beta` in `general_gemm`
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Support use of `alpha` and `beta` in `BasicLinear._functional_forward` and `BasicLinear._functional_backward`
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Add `ForwardLinearScaleAdd` fusion
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Add `BackwardLinearScale` fusion
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Apply suggestions from code review
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* Remove calls to `validate_gemm_scale` from `BasicLinear`
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

---------
Signed-off-by: Jan Bielak <jbielak@nvidia.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

c654e4fe

Merge branch 'develop_v2.5' · 592c9f40
wenjh authored Aug 15, 2025

592c9f40
Avoid acc problem of test_gpt_*_activation_recompute · c4bb6049
wenjh authored Aug 15, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
c4bb6049