Commits · b998121c828aaa3f954caa4c72e70dbcf71e1272 · OpenDAS / TransformerEngine

09 Jan, 2026 1 commit

Fix swizzle, swap_first_dims and RMSNorm issues on release_v2.7 (Rocky 8.6) · b998121c

wuyf1 authored Jan 09, 2026

## Summary
Fix swizzle / swap_first_dims RTC build and normalization test issues on `release_v2.7` (ROCm/HIP).

## Background
- ROCm/HIP path currently hits build/runtime/test issues in:
  - `swizzle_scaling_factors` (HIP compile constraints with `__device__ __host__` constexpr)
  - RTC `swap_first_dims` source selection
  - `test_normalization` when `use_cudnn` is enabled for LayerNorm/RMSNorm
  - PyTorch L0 unittest environment relying on `PYTHONPATH`

## Changes
1) **qa/L0_pytorch_unittest/test.sh**
   - Export `PYTHONPATH` to include `${TE_PATH}` so tests can import from source tree without reinstalling pytest.
   - Removed explicit `pip3 install pytest==8.2.1` from the script.

2) **tests/cpp/operator/test_normalization.cu**
   - Skip LayerNorm/RMSNorm cases when `use_cudnn` is enabled:
     - `GTEST_SKIP(): CudnnLayerNorm and CudnnRmsNorm are disabled.`
   - Avoids running unsupported/disabled cuDNN normalization paths in this configuration.

3) **transformer_engine/common/CMakeLists.txt**
   - Fix RTC header generation for `swap_first_dims` on ROCm:
     - use `transpose/rtc/swap_first_dims.hip` instead of `.cu`.

4) **transformer_engine/common/swizzle/swizzle.cu**
   - For `__HIP_PLATFORM_AMD__`, replace `constexpr __device__ __host__ int ...` with plain `constexpr int ...`
   - Keeps CUDA path unchanged.
   - Addresses HIP compilation constraints while preserving constants’ values and usage.

## Verification
- [x] Build on 10.16.4.9 rocky_8.6 docker Enviroment
- [x] Run `qa/L0_pytorch_unittest/test.sh`
- [x] Run C++ operator tests related to normalization/swizzle as applicable

## Notes
- Branch synced with latest `origin/release_v2.7` before opening this MR.

See merge request dcutoolkit/deeplearing/TransformerEngine!66

b998121c

07 Jan, 2026 1 commit
- Add nmz support · e908bd30
  wenjh authored Jan 07, 2026
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  e908bd30
19 Dec, 2025 1 commit
- Fix build error · a9601800
  wenjh authored Dec 19, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  a9601800
18 Dec, 2025 1 commit
- Add bias fwd/bwd at group gemm · 5cf21c3b
  wenjh authored Dec 18, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  5cf21c3b
15 Dec, 2025 1 commit
- Complete manage blaslt handle · 86d5cd03
  wenjh authored Dec 15, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  86d5cd03
13 Dec, 2025 1 commit
- Complete fix blaslt group gemm dump · 1261da47
  wenjh authored Dec 13, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  1261da47
11 Dec, 2025 1 commit

Fix blaslt group gemm dump · 0a90777e

wenjh authored Dec 10, 2025


Signed-off-by: wenjh <wenjh@sugon.com>

Mutex group gemm
Signed-off-by: wenjh <wenjh@sugon.com>

do while group gemm
Signed-off-by: wenjh <wenjh@sugon.com>

Remove mutex
Signed-off-by: wenjh <wenjh@sugon.com>

0a90777e

26 Nov, 2025 1 commit
- Use hipFreeAsync rather than hipFree · 772a941a
  wenjh authored Nov 26, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  772a941a
12 Nov, 2025 5 commits
- fix build error · 623ae795
  wenjh authored Nov 12, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  623ae795
- Sync All on groupedgemm. · b3833972
  wenjh authored Nov 12, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  b3833972
- Fix build error · 66bd0b32
  wenjh authored Nov 12, 2025
  
  66bd0b32
- Fix build error · bcaa56b9
  wenjh authored Nov 12, 2025
  
  bcaa56b9
- Fix hipblaslt handle manage · f791516e
  wenjh authored Nov 12, 2025
  
  f791516e
08 Nov, 2025 1 commit
- Fix user args core dump in mt · c1161fb1
  wenjh authored Nov 08, 2025
  
  c1161fb1
30 Oct, 2025 2 commits
- [DCU] fix some bug · 5cc8ee3e
  zhaochao authored Oct 30, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  5cc8ee3e
- [DCU]fix main_grad no exit · bd5a6e86
  tabuchixiangcai3 authored Oct 30, 2025
```
Signed-off-by: Tangao <2205747538@qq.com>
```
  bd5a6e86
23 Oct, 2025 2 commits
- fix some note · 183a88cf
  zhaochao authored Oct 23, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  183a88cf
- [DCU]Fix the dimension bug in the MLA under the FlashAttention backend. · ca2958a8
  zhaochao authored Oct 23, 2025
```
Signed-off-by: zhaochao <zhaochao1@sugon.com>
```
  ca2958a8
20 Oct, 2025 1 commit

[DCU]Fix MPI root support, enable int8 simulation and batched_inear to access... · 29271c40

tabuchixiangcai3 authored Oct 20, 2025


[DCU]Fix MPI root support, enable int8 simulation and batched_inear to access non-existent. main_grad
Signed-off-by: Tangao <2205747538@qq.com>

29271c40

16 Oct, 2025 3 commits
- Update activation offload code to align with the official version · f8d68a97
  dongcl authored Oct 16, 2025
  
  f8d68a97
- [DCU] remove redundant gemm · 6d43cba8
  yuguo authored Oct 16, 2025
  
  6d43cba8
- [DCU]Fix memory overflow and test-didistributed in L1_pytorch_istributed_unittest · 77e9b318
  tabuchixiangcai3 authored Oct 16, 2025
```
Signed-off-by: Tangao <2205747538@qq.com>
```
  77e9b318
13 Oct, 2025 1 commit
- [DCU] remove channelwise int8 group gemm · 04ef76dd
  yuguo authored Oct 13, 2025
  
  04ef76dd
28 Sep, 2025 1 commit
- bug fix · 650cb815
  dongchl authored Sep 28, 2025
  
  650cb815
24 Sep, 2025 1 commit
- support activation offloading · 162e32d4
  dongcl authored Sep 24, 2025
  
  162e32d4
19 Sep, 2025 2 commits
- support activation offloading · cd4cdf80
  dongcl authored Sep 19, 2025
  
  cd4cdf80
- [DCU] fix · b15412aa
  yuguo authored Sep 19, 2025
  
  b15412aa
18 Sep, 2025 5 commits
- Fix w8a8 lightop restriction · 803be71d
  wenjh authored Sep 18, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  803be71d
- Adapt to changes of hipblaslt · d81f8119
  wenjh authored Sep 18, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  d81f8119
- Enable lightop w8a8 · 3f800f01
  wenjh authored Sep 18, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  3f800f01
- [DCU] fix compile · d55fdf7b
  yuguo authored Sep 18, 2025
  
  d55fdf7b
- [DCU] fix · 00fcd784
  yuguo authored Sep 18, 2025
  
  00fcd784
12 Sep, 2025 1 commit
- Fix std::bad_alloc on test_float8blockwisetensor.py · 4922108e
  wenjh authored Sep 12, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  4922108e
11 Sep, 2025 1 commit
- [Perf] blockwise 1d better perf · fca88163
  wenjh authored Sep 11, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  fca88163
02 Sep, 2025 1 commit
- Fix build problems while not support fp4 · 8e0fd518
  wenjh authored Sep 02, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  8e0fd518
28 Aug, 2025 3 commits

[PyTorch] Disable determinism for sm100 (#2130) · fedd9ddc

Charlene Yang authored Aug 28, 2025



* disable determinism for sm100+ and cudnn<9.14
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* fix remaining CI failures
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* revert some changes
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* revert more changes
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* remove sm100 from determinism table
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

---------
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

fedd9ddc

[DCU] fix quantize bug · d86ee4c8
yuguo authored Aug 28, 2025

d86ee4c8
[DCU] fix bugs · 546bb548
yuguo authored Aug 28, 2025

546bb548

27 Aug, 2025 2 commits

Further relax constraints to cuDNN 9.13 for disabling fused attn for kv caching (#2121) · 1d1e8efe
Kshitij Lakhani authored Aug 27, 2025
```
Signed-off-by: Kshitij Lakhani <klakhani@nvidia.com>
```
1d1e8efe

Add cuBLASMp-backed GEMM-like API to TE common (#1824) · d7874aad

Vladimir Cherepanov authored Aug 26, 2025



* Pick up cuBLASMp during build
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Change lib order to fix link error
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Context creation, incomplete...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Test fixure
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* A sanity AgGemm test, failing...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fix axes
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Take care of uneven distribution
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Use MPI to get position of local matrices
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Refactor
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Refactor & fixes
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Gemm-RS
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Gemm-AR, not working...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fixes
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Setting all-reduce epilogue for gemm-ar
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Use supported shapes for GEMM-AR
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Tweak tolerance
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* First shot at fp8
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Use TensorHolder in tests
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* More test configs
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Support comm_sm_count
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Parametrize dtypes for A, B and D separately
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Tweak scaling
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Amax ptr
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Flags parity with cublas_gemm, saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Cleanup
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Bias tests
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fix bias test
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Aux, saving...
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* aux_ld
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* A fix
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Use test::Tensor
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Set scale inv
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Remove unsupported test configs
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Tweak tests
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Replace libcal with NCCL
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Add NVTX markers to API functions
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Tweak GemmAr tests
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* More test config
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci

Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fix merge fallout
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Remove MPI dependency, comment API, add algo parameter
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fix nvshmem dependency
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fix nvshmem build
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Excluse CommGemm tests from L0_cppunittest
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Add cpp_distributed sh file for CI
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Adapt tp TensorAllocator
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Skip GemmAr test on unsupported HW
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Oversibscribe is needed on some clusters
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Fix incomplete libcal removal
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Move CI tests to L1
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Rename context to include NVTE prefix
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Remove leftover code
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* NVTE_WITH_CUBLASMP off by default
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* More detailed NVTE_CHECK diag
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Comment API
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Include stdbool header for legacy C compilers
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Remove now unused argument
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* Abstract away cuBLASMp algo behind our own enum
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* More detailed shape diag messages
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Update transformer_engine/common/include/transformer_engine/comm_gemm.h
Co-authored-by: Przemyslaw Tredak <ptrendx@gmail.com>
Signed-off-by: Vladimir Cherepanov <56651474+mk-61@users.noreply.github.com>

* Add license
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>

---------
Signed-off-by: Vladimir Cherepanov <vcherepanov@nvidia.com>
Signed-off-by: Vladimir Cherepanov <56651474+mk-61@users.noreply.github.com>
Co-authored-by: Vladimir Cherepanov <vcherepanov@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Co-authored-by: Przemyslaw Tredak <ptrendx@gmail.com>

d7874aad