Commits · 063ef88d1af050b9076daaa5b92ed2d0018796fa · OpenDAS / TransformerEngine

03 Dec, 2025 1 commit
- Merge nv main up to v2.10.0.dev0 · 063ef88d
  wenjh authored Dec 03, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  063ef88d
26 Nov, 2025 2 commits

Merge branch 'develop_v2.8' into 'main' · 91670b05

wenjh authored Nov 26, 2025

[DCU] Skip some tests in test_sanity.py

See merge request dcutoolkit/deeplearing/TransformerEngine!61

91670b05

Merge branch 'fix_develop2.8_zc' into 'develop_v2.8' · 3a040217
wenjh authored Nov 26, 2025
```
[DCU]Fix some bugs

See merge request dcutoolkit/deeplearing/TransformerEngine!56
```
3a040217

12 Nov, 2025 4 commits
- Merge branch 'develop_v2.8' into 'main' · e3780e3a
  wenjh authored Nov 12, 2025
```
Fix build error

See merge request dcutoolkit/deeplearing/TransformerEngine!60
```
  e3780e3a
- Fix build error · a622988a
  wenjh authored Nov 12, 2025
  
  a622988a
- Merge branch 'develop_v2.8' into 'main' · a145a62a
  wenjh authored Nov 12, 2025
```
Fix hipblaslt handle manage

See merge request dcutoolkit/deeplearing/TransformerEngine!59
```
  a145a62a
- Fix hipblaslt handle manage · f4bd89eb
  wenjh authored Nov 12, 2025
  
  f4bd89eb
08 Nov, 2025 2 commits
- Merge branch 'develop_v2.8' into 'main' · e32965ff
  wenjh authored Nov 08, 2025
```
Fix user args core dump in mt

See merge request dcutoolkit/deeplearing/TransformerEngine!57
```
  e32965ff
- Fix user args core dump in mt · a13c52ad
  wenjh authored Nov 08, 2025
  
  a13c52ad
03 Nov, 2025 8 commits
- [DCU] fix some bugs in test_numerics.py · f7c66e28
  zhaochao authored Nov 03, 2025
  
  f7c66e28
- [DCU]Skip configurations that FlashAttention does not support · 87682fe2
  zhaochao authored Nov 03, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  87682fe2
- [DCU]Resolve the issue of checkpoint test weights not existing. · 9d34e27a
  zhaochao authored Nov 03, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  9d34e27a
- [DCU] Fix the bug in test_onnx_export.py under L0 · d5cd815f
  zhaochao authored Nov 03, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  d5cd815f
- [DCU] Skip alpha non-1 tests · ef65dd33
  zhaochao authored Nov 03, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  ef65dd33
- [DCU] fix bug with cannot import name 'use_lightop_w8a8' from 'transformer_engine.pytorch.utils' · 3d36696b
  zhaochao authored Nov 03, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  3d36696b
- [DCU] Skip some tests in test_cuda_graphs.py under L0 · 2fc4b10c
  zhaochao authored Nov 03, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  2fc4b10c
- [DCU] Skip some tests in test_sanity.py · 6af7b77d
  zhaochao authored Nov 03, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  6af7b77d
31 Oct, 2025 1 commit

Merge branch 'TE_develop2.8' into 'develop_v2.8' · 3a5755b1

wenjh authored Oct 31, 2025

[DCU]Fix memory overflow and test-didistributed in L1_pytorch_istributed_unittest

See merge request dcutoolkit/deeplearing/TransformerEngine!49

3a5755b1

17 Oct, 2025 3 commits
- [DCU]Fix the original code · b11d6fca
  tabuchixiangcai3 authored Oct 17, 2025
```
Signed-off-by: Tangao <2205747538@qq.com>
```
  b11d6fca
- Merge branch 'develop_v2.8' into 'develop_v2.8' · 4b65dfa3
  yuguo authored Oct 17, 2025
```
Update activation offload code to align with the official version

See merge request dcutoolkit/deeplearing/TransformerEngine!52
```
  4b65dfa3
- Update activation offload code to align with the official version · 9711d439
  dongcl authored Oct 17, 2025
  
  9711d439
16 Oct, 2025 6 commits

Changed VERSION to 2.10.0.dev0 · 5624dbb4
Przemek Tredak authored Oct 16, 2025
```
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
```
5624dbb4

[PyTorch] Add record_stream and untyped_storage func op in QuantizedTensor (#2144) · 81c363bf

xiaoxi-wangfj authored Oct 17, 2025



* [PyTorch] Add record_stream and untyped_storage func op in QuantizedTensor
Signed-off-by: xiaoxi-wangfj <690912414@qq.com>

* Update transformer_engine/pytorch/tensor/float8_blockwise_tensor.py
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: xiaoxi-wangfj <690912414@qq.com>

* Update transformer_engine/pytorch/tensor/float8_blockwise_tensor.py
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: xiaoxi-wangfj <690912414@qq.com>

---------
Signed-off-by: xiaoxi-wangfj <690912414@qq.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

81c363bf

Added support for DistOpt with offloading with MoE's (#2264) · 452c7374

Selvaraj Anandaraj authored Oct 16, 2025

Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>
Co-authored-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

452c7374

Merge branch 'develop_v2.8' of... · 712d526a

yuguo authored Oct 16, 2025

Merge branch 'develop_v2.8' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine into develop_v2.8

712d526a

[DCU] remove redundant gemm · 47077129
yuguo authored Oct 16, 2025

47077129
[DCU]Fix memory overflow and test-didistributed in L1_pytorch_istributed_unittest · 2a64c9a6
tabuchixiangcai3 authored Oct 16, 2025
```
Signed-off-by: Tangao <2205747538@qq.com>
```
2a64c9a6

15 Oct, 2025 5 commits

README - latest news update (#2273) · 88564d59

Santosh Bhavani authored Oct 15, 2025



* Enhance Latest News section with recent TE and FP8 developments

- Adds NVFP4 pretraining research paper with PR #2177 reference
Signed-off-by: Santosh Bhavani <santosh.bhavani@live.com>

* update nvfp4 reference
Signed-off-by: Santosh Bhavani <santosh.bhavani@live.com>

* Update README.rst
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Santosh Bhavani <santosh.bhavani@live.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

88564d59

[PyTorch Debug] Fix issue with start_end_list logging feature (#2252) · 4c572f04

Paul Gibbons authored Oct 15, 2025



* fixes for start_end_list usage in TE debug
Signed-off-by: Paul Gibbons <pgibbons@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



---------
Signed-off-by: Paul Gibbons <pgibbons@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Co-authored-by: Paweł Gadziński <62263673+pggPL@users.noreply.github.com>

4c572f04

Fix typo · a26a0c30
wenjh authored Oct 15, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
a26a0c30
[DCU] fix compile issues · aa62d24c
yuguo authored Oct 15, 2025

aa62d24c
[DCU] fix compile issues · 8d5cd8c6
yuguo authored Oct 15, 2025

8d5cd8c6

14 Oct, 2025 5 commits

[PyTorch] Bump minimum cuDNN version for fused attention with FP8 current scaling (#2236) · fd2f589f

Tim Moon authored Oct 14, 2025



* Require cuDNN 9.14.0+ for fused attention with FP8 current scaling
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



---------
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

fd2f589f

Generalize quantization APIs for FP8/FP4/.. recipes (#2256) · 85a91997

Kirthi Shankar Sivamani authored Oct 14, 2025



* Initial API change
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Change all imports and api
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* format
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fixes
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix typo
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix recipe tets
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix more tests
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix docs, tests, and make Jax change as well
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Change internal uses of fp8_autocast
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Address nits
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* rename file
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* CG function, and small test fixes
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Change instances of make_graphed_callables internally
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix distributed tests
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Review
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Review
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix test and add more docs
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Cleanup test imports and minimize internal file imports
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Make is_bf16_available public
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fixes
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix tests
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Better docs and better api
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* format
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Apply suggestions from code review
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

* fix nvfp4 test
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

85a91997

[JAX] Add BRCM support for THD (#2242) · ca6fedcf

Kshitij Lakhani authored Oct 14, 2025



* Add BRCM support when creating a test mask for fused attn
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>

* Add support for BRCM to correctly generate the mask needed for calculating the seqlens and offsets for THD
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>

* Skip drop=0 and no_bias case for BRCM as cuDNN does not suport this
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>

* Skip BRCM test cases where max_seqlen_q > max_seqlen_kv
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>

* Refactor the segment id run length code for BRCM seqoffset and seqlens calculations
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>

* Fix the drop inequality skip condition in fused attn
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>

* nit: Adjust the BRCM id name in the test to make it consistent
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>

* Fix the brcm mask condition.
Fix the condition for cross atnn type pattern to only apply for brcm
Change the num segments per sequence to 3 instead of 2
Reduce one test pattern data size and make it such that it triggers brcm
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Fix lint errors
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>

* Fix incorrectly changed dtype to numpy bool_ rather than native python bool
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>

* Restore the numsegments to earlier value
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>

* Add example for THD BRCM
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>

---------
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

ca6fedcf

[PyTorch] Use Quantization API for reference NVFP4 recipe (#2259) · dfacd9f7

Evgeny Tsykunov authored Oct 14, 2025



* Fix update_quantized in ref nvfp4 quantizer
Signed-off-by: Evgeny <etsykunov@nvidia.com>

* Subclass quantization API
Signed-off-by: Evgeny <etsykunov@nvidia.com>

* Use recipe.Custom and quantizer factories for reference NVFP4
Signed-off-by: Evgeny <etsykunov@nvidia.com>

* Linter fix
Signed-off-by: Evgeny <etsykunov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



---------
Signed-off-by: Evgeny <etsykunov@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

dfacd9f7

[JAX] Fix test path for fp8 grouped gemm ag (#2262) · 5ec0f33b
Kshitij Lakhani authored Oct 13, 2025
```
Fix test path so that it gets triggered
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>
```
5ec0f33b

13 Oct, 2025 3 commits

FSDP grad fusion support (#2191) · a3b749b1

Selvaraj Anandaraj authored Oct 13, 2025



* FSDP grad fusion support
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche01.ptyche.clusters.nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Re-factored grad overwriting usage
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>

* Update transformer_engine/pytorch/ops/basic/basic_linear.py
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Selvaraj Anandaraj <selvaraja@nvidia.com>

* Update transformer_engine/pytorch/ops/fused/backward_linear_add.py
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Selvaraj Anandaraj <selvaraja@nvidia.com>

* Update transformer_engine/pytorch/ops/fused/backward_linear_scale.py
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Selvaraj Anandaraj <selvaraja@nvidia.com>

* Update transformer_engine/pytorch/ops/fused/userbuffers_backward_linear.py
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Selvaraj Anandaraj <selvaraja@nvidia.com>

* Modified API usage, added arg details
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



---------
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche01.ptyche.clusters.nvidia.com>
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>
Signed-off-by: Selvaraj Anandaraj <selvaraja@nvidia.com>
Co-authored-by: Selvaraj Anandaraj <selvaraja@login-ptyche01.ptyche.clusters.nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Co-authored-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

a3b749b1

[JAX] Add assertion message to amax -> scale computation (#2263) · 76e1af33
jberchtold-nvidia authored Oct 13, 2025
```
assertion check
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>
```
76e1af33

[Common][JAX] Improve error message for cublas fp8 gemm with incorrect shape (#2261) · 8c364b4d

jberchtold-nvidia authored Oct 13, 2025



* Improve error message for cublas fp8 gemm with incorrect shape
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

* lint
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

* Removed unnecessary non-contracting size check
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

* rename inner dim -> leading dim
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

---------
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

8c364b4d