Commits · 650cb8153a8822b9d64b1b8765e7536526437a40 · OpenDAS / TransformerEngine

28 Sep, 2025 1 commit
- bug fix · 650cb815
  dongchl authored Sep 28, 2025
  
  650cb815
26 Sep, 2025 1 commit
- Merge branch 'activation_offloading' into 'release_v2.7' · 6bdc5d69
  wenjh authored Sep 26, 2025
```
support activation offloading

See merge request dcutoolkit/deeplearing/TransformerEngine!43
```
  6bdc5d69
24 Sep, 2025 1 commit
- support activation offloading · 162e32d4
  dongcl authored Sep 24, 2025
  
  162e32d4
22 Sep, 2025 1 commit
- Merge branch 'activation_offloading' into 'release_v2.7' · 8aca187f
  wenjh authored Sep 22, 2025
```
support activation offloading

See merge request dcutoolkit/deeplearing/TransformerEngine!41
```
  8aca187f
19 Sep, 2025 3 commits
- support activation offloading · cd4cdf80
  dongcl authored Sep 19, 2025
  
  cd4cdf80
- Merge branch 'develop_v2.7' of... · 79fa3eba
  yuguo authored Sep 19, 2025
```
Merge branch 'develop_v2.7' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine into release_v2.7
```
  79fa3eba
- [DCU] fix · b15412aa
  yuguo authored Sep 19, 2025
  
  b15412aa
18 Sep, 2025 8 commits
- Merge branch 'develop_v2.7' into release_v2.7 · 117f9059
  wenjh authored Sep 18, 2025
  
  117f9059
- Fix w8a8 lightop restriction · 803be71d
  wenjh authored Sep 18, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  803be71d
- Adapt to changes of hipblaslt · d81f8119
  wenjh authored Sep 18, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  d81f8119
- Enable lightop w8a8 · 3f800f01
  wenjh authored Sep 18, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  3f800f01
- [DCU] fix compile · d55fdf7b
  yuguo authored Sep 18, 2025
  
  d55fdf7b
- Merge branch 'release_v2.7' of https://github.com/NVIDIA/TransformerEngine into release_v2.7 · e45d66a3
  yuguo authored Sep 18, 2025
  
  e45d66a3
- Merge branch 'develop_v2.7' of... · 419897d1
  yuguo authored Sep 18, 2025
```
Merge branch 'develop_v2.7' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine into release_v2.7
```
  419897d1
- [DCU] fix · 00fcd784
  yuguo authored Sep 18, 2025
  
  00fcd784
12 Sep, 2025 2 commits
- Merge branch 'develop_v2.7' into release_v2.7 · 8bb7aea1
  wenjh authored Sep 12, 2025
  
  8bb7aea1
- Fix std::bad_alloc on test_float8blockwisetensor.py · 4922108e
  wenjh authored Sep 12, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  4922108e
11 Sep, 2025 2 commits
- Merge branch 'develop_v2.7' into release_v2.7 · bfcd6493
  wenjh authored Sep 11, 2025
  
  bfcd6493
- [Perf] blockwise 1d better perf · fca88163
  wenjh authored Sep 11, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  fca88163
09 Sep, 2025 2 commits
- Merge branch 'develop_v2.7' into release_v2.7 · 225ce806
  wenjh authored Sep 09, 2025
  
  225ce806
- Fix float8 blockwise gemm tests with accumulator · ca1e98b6
  wenjh authored Sep 09, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  ca1e98b6
03 Sep, 2025 2 commits
- Merge branch 'develop_v2.7' into release_v2.7 · a476b196
  wenjh authored Sep 03, 2025
  
  a476b196
- Add int8 blockwise gemm test to float8 · 065160ab
  wenjh authored Sep 03, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  065160ab
02 Sep, 2025 4 commits
- Merge branch 'develop_v2.7' into release_v2.7 · d43d866d
  wenjh authored Sep 02, 2025
  
  d43d866d
- Fix build error of cpp unit test · 0c461880
  wenjh authored Sep 02, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  0c461880
- Merge branch 'develop_v2.7' into release_v2.7 · 81c04194
  wenjh authored Sep 02, 2025
  
  81c04194
- Fix build problems while not support fp4 · 8e0fd518
  wenjh authored Sep 02, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  8e0fd518
28 Aug, 2025 6 commits

[PyTorch] Disable determinism for sm100 (#2130) · fedd9ddc

Charlene Yang authored Aug 28, 2025



* disable determinism for sm100+ and cudnn<9.14
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* fix remaining CI failures
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* revert some changes
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* revert more changes
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* remove sm100 from determinism table
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

---------
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

fedd9ddc

Temporarily remove comm_gemm tests (#2133) · 9cd6d16d
vcherepanov-nv authored Aug 27, 2025
```
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>
```
9cd6d16d

Merge branch 'develop_v2.7' of... · 1446ae62

yuguo authored Aug 28, 2025

Merge branch 'develop_v2.7' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine into release_v2.7

1446ae62

[DCU] fix quantize bug · d86ee4c8
yuguo authored Aug 28, 2025

d86ee4c8

Merge branch 'develop_v2.7' of... · 65e6a5e0

yuguo authored Aug 28, 2025

Merge branch 'develop_v2.7' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine into release_v2.7

65e6a5e0

[DCU] fix bugs · 546bb548
yuguo authored Aug 28, 2025

546bb548

27 Aug, 2025 7 commits

Further relax constraints to cuDNN 9.13 for disabling fused attn for kv caching (#2121) · 1d1e8efe
Kshitij Lakhani authored Aug 27, 2025
```
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>
```
1d1e8efe

Add cuBLASMp-backed GEMM-like API to TE common (#1824) · d7874aad

Vladimir Cherepanov authored Aug 26, 2025



* Pick up cuBLASMp during build
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Change lib order to fix link error
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Context creation, incomplete...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Test fixure
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* A sanity AgGemm test, failing...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fix axes
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Take care of uneven distribution
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Use MPI to get position of local matrices
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Refactor
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Refactor & fixes
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Gemm-RS
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Gemm-AR, not working...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fixes
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Setting all-reduce epilogue for gemm-ar
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Use supported shapes for GEMM-AR
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Tweak tolerance
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* First shot at fp8
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Use TensorHolder in tests
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* More test configs
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Support comm_sm_count
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Parametrize dtypes for A, B and D separately
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Tweak scaling
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Amax ptr
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Flags parity with cublas_gemm, saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Cleanup
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Bias tests
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fix bias test
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Aux, saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* aux_ld
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* A fix
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Use test::Tensor
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Set scale inv
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Remove unsupported test configs
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Tweak tests
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Replace libcal with NCCL
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Add NVTX markers to API functions
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Tweak GemmAr tests
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* More test config
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fix merge fallout
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Remove MPI dependency, comment API, add algo parameter
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fix nvshmem dependency
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fix nvshmem build
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Excluse CommGemm tests from L0_cppunittest
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Add cpp_distributed sh file for CI
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Adapt tp TensorAllocator
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Skip GemmAr test on unsupported HW
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Oversibscribe is needed on some clusters
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fix incomplete libcal removal
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Move CI tests to L1
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Rename context to include NVTE prefix
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Remove leftover code
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* NVTE_WITH_CUBLASMP off by default
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* More detailed NVTE_CHECK diag
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Comment API
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Include stdbool header for legacy C compilers
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Remove now unused argument
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Abstract away cuBLASMp algo behind our own enum
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* More detailed shape diag messages
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Update transformer_engine/common/include/transformer_engine/comm_gemm.h
Co-authored-by: Przemyslaw Tredak <ptrendx@gmail.com>
Signed-off-by: Vladimir Cherepanov <56651474+mk-61@users.noreply.github.com>

* Add license
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

---------
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>
Signed-off-by: Vladimir Cherepanov <56651474+mk-61@users.noreply.github.com>
Co-authored-by: Vladimir Cherepanov <vcherepanov@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Co-authored-by: Przemyslaw Tredak <ptrendx@gmail.com>

d7874aad

[PyTorch] Add test for TRT integration + fix for mxfp8 export (#2083) · f8d2c50e

Paweł Gadziński authored Aug 20, 2025



* code drop
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* fix
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>

* fix
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>

---------
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

f8d2c50e

Merge branch 'develop_v2.7' of... · 03f1f664

yuguo authored Aug 27, 2025

Merge branch 'develop_v2.7' of http://10.16.6.30/dcutoolkit/deeplearing/TransformerEngine into release_v2.7

03f1f664

[DCU] fix compile · 5b6190b2
yuguo authored Aug 27, 2025

5b6190b2
Merge branch 'release_v2.7' of https://github.com/NVIDIA/TransformerEngine into release_v2.7 · 2389ed3f
yuguo authored Aug 27, 2025

2389ed3f
Merge commit '734bcedd' of... · 87e3e56e
yuguo authored Aug 27, 2025
```
Merge commit '734bcedd' of https://github.com/NVIDIA/TransformerEngine
```
87e3e56e