Commits · 059d92e2ee6762316620f176c3e08b1ad5c03ceb · OpenDAS / TransformerEngine

25 Aug, 2025 1 commit
- [DCU] fix moe tensorwise int8 · 059d92e2
  yuguo authored Aug 25, 2025
  
  059d92e2
23 Aug, 2025 2 commits
- [DCU] tensorwise int8 gemm surpport bias · 11864d3d
  yuguo authored Aug 23, 2025
  
  11864d3d
- [DCU] fix tensorwise int8 moe bugs · 32edae18
  yuguo authored Aug 23, 2025
  
  32edae18
21 Aug, 2025 2 commits
- fix · 0cf10d1c
  yuguo authored Aug 21, 2025
  
  0cf10d1c
- [DCU] tensorwise int8 train opt · 7a923605
  yuguo authored Aug 21, 2025
  
  7a923605
19 Aug, 2025 1 commit
- add swap env · d19a5a44
  evt_fugx1 authored Aug 19, 2025
  
  d19a5a44
08 Aug, 2025 1 commit
- [DCU] add NVTE_INT8_SIM_FP8_TENSORWISE · 3eb6ea62
  yuguo authored Aug 08, 2025
  
  3eb6ea62
07 Aug, 2025 1 commit
- [DCU] fix channelwise train accumulate bug · 68d6c506
  yuguo authored Aug 07, 2025
  
  68d6c506
06 Aug, 2025 2 commits
- [DCU] fix channelwise train oom bug · 4a013bd5
  yuguo authored Aug 06, 2025
  
  4a013bd5
- [DCU] fix batchlinear core dump in 2.5 · eac0d49b
  yuguo authored Aug 06, 2025
  
  eac0d49b
05 Aug, 2025 1 commit
- [DCU] fix all gather usage · d8041744
  yuguo authored Aug 05, 2025
  
  d8041744
25 Jul, 2025 2 commits
- Disable lightop for now · ff1e14af
  wenjh authored Jul 25, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  ff1e14af
- TN w8a8 lightop · 4088797f
  wenjh authored Jul 25, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  4088797f
18 Jul, 2025 2 commits
- [DCU] fix · d9847b6d
  yuguo authored Jul 18, 2025
  
  d9847b6d
- Optional lightop · f5349823
  wenjh authored Jul 18, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  f5349823
17 Jul, 2025 1 commit
- Use lightop replace w8a8_mutmal_extension · 1036ccfe
  wenjh authored Jul 17, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  1036ccfe
16 Jul, 2025 1 commit
- [DCU] surpport NVTE_USE_HIPBLASLT_GROUPEDGEMM · 9406ff31
  yuguo authored Jul 16, 2025
  
  9406ff31
15 Jul, 2025 2 commits
- Fix pytorch module import error · 148b5bea
  wenjh authored Jul 15, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  148b5bea
- [DCU] surpport channelwise int8 train · 793e0103
  yuguo authored Jul 15, 2025
  
  793e0103
11 Jul, 2025 1 commit
- Support w8a8_matmul_extension · 6a20ff90
  wenjh authored Jul 11, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  6a20ff90
09 Jul, 2025 2 commits
- [DCU] channelwise batchgemm for MOE · 76023d21
  yuguo authored Jul 09, 2025
  
  76023d21
- Fix int8 gemm nt and wgrad · 5fcf30ba
  wenjh authored Jul 09, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  5fcf30ba
08 Jul, 2025 1 commit
- [DCU] Preliminary support for channelwise · 9fe13a33
  yuguo authored Jul 08, 2025
  
  9fe13a33
01 Jul, 2025 1 commit

[Blockwise] Add support block_len=64 support · b944277c

wenjh authored Jun 25, 2025



Add env to chose blocklen of blockwise quantize.
Signed-off-by: wenjh <wenjh@sugon.com>

Fix pytest of blockwise error
Signed-off-by: wenjh <wenjh@sugon.com>

Resolve new api in  int8 gemm test
Signed-off-by: wenjh <wenjh@sugon.com>

Fix incorrect launch parm
Signed-off-by: wenjh <wenjh@sugon.com>

Fix 1D blockwise(64) acc error
Signed-off-by: wenjh <wenjh@sugon.com>

b944277c

20 Jun, 2025 2 commits
- [DCU] fix megatron MOE int8 train bugs · 251dcc7e
  yuguo authored Jun 20, 2025
  
  251dcc7e
- [DCU] fix megatron MOE int train issues · 7640a8d4
  yuguo authored Jun 20, 2025
  
  7640a8d4
19 Jun, 2025 1 commit
- [DCU] add TORCH_COMM_CU_NUMS and fix · d6c32078
  yuguo authored Jun 19, 2025
  
  d6c32078
18 Jun, 2025 1 commit
- [DCU] fix 2.5 compile issues · 2b1428ff
  yuguo authored Jun 18, 2025
  
  2b1428ff
16 Jun, 2025 1 commit
- [DCU] fix in8 simul fp8 fused wgrad accumulation · 3653fbfb
  yuguo authored Jun 16, 2025
  
  3653fbfb
13 Jun, 2025 7 commits

Add support for head_dim > 128 (#1797) · 71c76b6b

Charlene Yang authored Jun 14, 2025



* add support for head dim > 128
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* remove debugging
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* raise tols slightly to tolerate 1/2048 mismatches
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* fix is_training for test_te_layer
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* add bprop support for blackwell
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* minor tweak for format
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* fix backend selection results
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* bump sm100 to sm100+
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* add sq=1 test for MLA
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* enable sq=1 for bprop
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* minor tweak in comments
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* fix head_dim logic and remove pytest skip
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* add FE fix for d>128
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* update FE again to take in small fixes
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* add cuDNN version info in L0 tests
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* increase tols for Unfused + large dim
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* Revert "add cuDNN version info in L0 tests"

This reverts commit 3e1b426ca5319a2c0540b9e73bba7047d0e583e5.
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* fix tols for Unfused
Signed-off-by: Charlene Yang <charleney@nvidia.com>

---------
Signed-off-by: Charlene Yang <charleney@nvidia.com>
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

71c76b6b

[DCU] fix blockwise int8 train issues in megatron · ecdd8251
yuguo authored Jun 13, 2025

ecdd8251

[common] Added support of FP4 data type (#1779) · 7b94bd99

Oleg Goncharov authored Jun 13, 2025



* Added support of FP4 data type
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* Refactoring to BitsNum in progress
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* Fixed compilation errors. All C++ tests passed
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* Fixed a typo
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Added FP4 guard to TMA tensor descriptor data type
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Fixed errors in JAX C++ extensions
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Removed dummy NVFP4 C++ test file
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* Make pytorch changes
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Refactored the code per the review notes. Fixed JAX build error.
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Removed unnecessary static casts
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* Typo fix
Signed-off-by: Oleg Goncharov <64355998+Oleg-Goncharov@users.noreply.github.com>

* Pass correct num bits to create_2D_tensor_map; fixes CI
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* inline funcs
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Oleg Goncharov <64355998+Oleg-Goncharov@users.noreply.github.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

7b94bd99

[PyTorch] Add support for FP8 current scaling in operation-based API (#1858) · e963e4a9

Tim Moon authored Jun 12, 2025



* Add FP8 current scaling to te.Sequential tests
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Helper function for test/ref tensors does not produce quantized tensor by default
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Add FP8 current scaling to distributed te.Sequential tests
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Add FP8 current scaling to Userbuffers te.Sequential tests
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Debug MXFP8 tests
Signed-off-by: Tim Moon <tmoon@nvidia.com>

---------
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

e963e4a9

[PyTorch] Inference mode disables initializing quantized weights with column-wise usage (#1847) · 655512c1

Tim Moon authored Jun 12, 2025



* Do not initialize quantized weights with column-wise usage in inference mode
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Fix bug in test
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Use no-grad mode instead of inference mode in tests
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

---------
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

655512c1

Optimize `/ops/fuser.py` by moving computation from `forward` to `__init__` (#1870) · 8d4bdbc2

Jan Bielak authored Jun 12, 2025



* Flatten basic op params during fuser init
Signed-off-by: Jan Bielak <jbielak@nvidia.com>
(cherry picked from commit 949abe97070721b1da5117903067608250f5fb61)

* Add caching for is_non_tn_fp8_gemm_supported
Signed-off-by: Jan Bielak <jbielak@nvidia.com>
(cherry picked from commit fd830ae24ffbd2d0727010b1a8a119ca72f61ce5)

* Pass fuser to _OperationFuserAutogradFunction.forward and moving computation to __init__
Signed-off-by: Jan Bielak <jbielak@nvidia.com>
(cherry picked from commit fd808991993958b670726896254b82fcb967fa07)

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Pass basic_op_kwargs and is_grad_enabled as parameters rather than in fuser
Signed-off-by: Jan Bielak <jbielak@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



---------
Signed-off-by: Jan Bielak <jbielak@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

8d4bdbc2

Add support for overlapping wgrad NCCL AG with dgrad GEMM (#1849) · d90ced7c

Daniel Stokes authored Jun 13, 2025



* Add support for overlapping wgrad NCCL AG with dgrad GEMM
Signed-off-by: djns99 <40156487+djns99@users.noreply.github.com>

* Remove unused wait on memcpy API from UB
Signed-off-by: djns99 <40156487+djns99@users.noreply.github.com>

* Add better commenting to MXFP8 overlap
Signed-off-by: djns99 <40156487+djns99@users.noreply.github.com>

---------
Signed-off-by: djns99 <40156487+djns99@users.noreply.github.com>
Co-authored-by: dastokes <dastokes@dastokes-dvt-01.nvidia.com>

d90ced7c

12 Jun, 2025 4 commits

[PyTorch] Support L2Normalization basic op -> use for qk_norm (#1864) · 40a30a5f

Evgeny Tsykunov authored Jun 12, 2025



* Support L2Norm basic op
Signed-off-by: Evgeny <etsykunov@nvidia.com>

* Add L2Norm module wrapper
Signed-off-by: Evgeny <etsykunov@nvidia.com>

* Expose qk_norm to MHA nd transformer laayer
Signed-off-by: Evgeny <etsykunov@nvidia.com>

* Move tests into separate file
Signed-off-by: Evgeny <etsykunov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* fix pass
Signed-off-by: Evgeny <etsykunov@nvidia.com>

* Add license
Signed-off-by: Evgeny <etsykunov@nvidia.com>

* Remove  module
Signed-off-by: Evgeny <etsykunov@nvidia.com>

* Resollve comments
Signed-off-by: Evgeny <etsykunov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



---------
Signed-off-by: Evgeny <etsykunov@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

40a30a5f

Cpu reload double buffer (#1695) · 4d4f1edb

Selvaraj Anandaraj authored Jun 12, 2025



* Added double buffering support initial commit
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-preos01.a51.clusters.nvidia.com>

* Fixed bugs
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>

* Make only one double buffer creation
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>

* Fixed bug
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>

* Fixed typo
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>

* Fixed flag setting
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Merge conflict
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>

* fixes
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* fix
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* fix
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* lint fix
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>

---------
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-preos01.a51.clusters.nvidia.com>
Signed-off-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>
Signed-off-by: Selvaraj Anandaraj <anandaraj@wisc.edu>
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>
Co-authored-by: Selvaraj Anandaraj <selvaraja@login-preos01.a51.clusters.nvidia.com>
Co-authored-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>
Co-authored-by: Paweł Gadziński <62263673+pggPL@users.noreply.github.com>
Co-authored-by: Pawel Gadzinski <pgadzinski@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

4d4f1edb

[PyTorch] Fix typo in GrouppedLinear (#1867) · c293d3a8
Paweł Gadziński authored Jun 12, 2025
```
typo fix
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>
```
c293d3a8
[PyTorch] Fix backward compatibility for checkpoint loading (#1868) · 0efc7daf
Kirthi Shankar Sivamani authored Jun 11, 2025
```
Fix for loading old ckpt formats
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
0efc7daf