Commits · 76023d21fc67d418d23e2335714fe04fcdc23011 · OpenDAS / TransformerEngine

09 Jul, 2025 2 commits
- [DCU] channelwise batchgemm for MOE · 76023d21
  yuguo authored Jul 09, 2025
  
  76023d21
- Fix int8 gemm nt and wgrad · 5fcf30ba
  wenjh authored Jul 09, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  5fcf30ba
08 Jul, 2025 1 commit
- [DCU] Preliminary support for channelwise · 9fe13a33
  yuguo authored Jul 08, 2025
  
  9fe13a33
03 Jul, 2025 1 commit
- Fix kernel crash on block_len=64 · 40a4d896
  wenjh authored Jul 03, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  40a4d896
01 Jul, 2025 1 commit

[Blockwise] Add support block_len=64 support · b944277c

wenjh authored Jun 25, 2025



Add env to chose blocklen of blockwise quantize.
Signed-off-by: wenjh <wenjh@sugon.com>

Fix pytest of blockwise error
Signed-off-by: wenjh <wenjh@sugon.com>

Resolve new api in  int8 gemm test
Signed-off-by: wenjh <wenjh@sugon.com>

Fix incorrect launch parm
Signed-off-by: wenjh <wenjh@sugon.com>

Fix 1D blockwise(64) acc error
Signed-off-by: wenjh <wenjh@sugon.com>

b944277c

20 Jun, 2025 2 commits
- [DCU] fix megatron MOE int8 train bugs · 251dcc7e
  yuguo authored Jun 20, 2025
  
  251dcc7e
- [DCU] fix megatron MOE int train issues · 7640a8d4
  yuguo authored Jun 20, 2025
  
  7640a8d4
19 Jun, 2025 1 commit
- [DCU] add TORCH_COMM_CU_NUMS and fix · d6c32078
  yuguo authored Jun 19, 2025
  
  d6c32078
18 Jun, 2025 2 commits
- Fix vector blockwise acc problem · 8a03ff34
  wenjh authored Jun 18, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  8a03ff34
- Fix lack of lds in vector_blockwise · d1bf39cf
  wenjh authored Jun 18, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  d1bf39cf
16 Jun, 2025 1 commit
- [DCU] fix in8 simul fp8 fused wgrad accumulation · 3653fbfb
  yuguo authored Jun 16, 2025
  
  3653fbfb
13 Jun, 2025 1 commit
- [DCU] fix blockwise int8 train issues in megatron · ecdd8251
  yuguo authored Jun 13, 2025
  
  ecdd8251
12 Jun, 2025 2 commits
- [INT8] Make int8 rounding instead of truncation · 7f946529
  wenjh authored Jun 12, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  7f946529
- [Workaround] Improve acc of vectorise scaling · e2860c76
  wenjh authored Jun 12, 2025
```
Same intention of commit 3e38a2ea

.
This commit is to improve acc.
Signed-off-by: wenjh <wenjh@sugon.com>
```
  e2860c76
11 Jun, 2025 1 commit
- [DCU] add NVTE_TP_OVERLAP_AGGREGATE · b1864da3
  yuguo authored Jun 11, 2025
  
  b1864da3
10 Jun, 2025 1 commit
- [DCU] avoid rtc trans kernel bug (need fix) · fdb21575
  yuguo authored Jun 10, 2025
  
  fdb21575
09 Jun, 2025 1 commit
- [DCU] surpport cast master weight to int8 · 0a8072fa
  yuguo authored Jun 09, 2025
  
  0a8072fa
06 Jun, 2025 1 commit

[Workaround] Use bf16 lds to save fp32 input · 3e38a2ea

wenjh authored Jun 06, 2025



quantize_transpose_vector_blockwise function use lds exceeding 64kb when
input type is fp32. But max size of lds in dcu is 64kb, thus we use lds
as bfp16 for workaround.
Signed-off-by: wenjh <wenjh@sugon.com>

3e38a2ea

05 Jun, 2025 1 commit
- [DCU] support block fp8 simu with int8 for MOE · b7afba08
  yuguo authored Jun 05, 2025
  
  b7afba08
04 Jun, 2025 1 commit
- [DCU] support block fp8 simu with int8 for Dense · f6937668
  yuguo authored Jun 04, 2025
  
  f6937668
28 May, 2025 1 commit
- [Workaround] Dtk-25.04.1 need add hip_assert.h for hiprtc · 7e4e1e40
  wenjh authored May 28, 2025
  
  7e4e1e40
27 May, 2025 3 commits
- [DTK-25.04.1] Add support of __shfl_*sync apis · 47d6a78f
  wenjh authored May 27, 2025
  
  47d6a78f
- [DCU] combine 1f1b needs NVTE_OVERLAP_GRAD_REDUCE · 521f8d3b
  yuguo authored May 27, 2025
  
  521f8d3b
- [DCU] surpport cumask for tp overlap · c74c8789
  yuguo authored May 27, 2025
  
  c74c8789
26 May, 2025 2 commits

[FP8] Fix build error · 7d0f5b7f
wenjh authored May 26, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
7d0f5b7f

[DCU] Use ocp fp8(same as nvidia) · 9666d263

wenjh authored May 26, 2025



Use ocp fp8.
Workaround: test_cast_float8blockwise.cu link wrong std::max
Signed-off-by: wenjh <wenjh@sugon.com>

9666d263

23 May, 2025 1 commit
- [DCU] surpport blockwise int8 quant · 80c5079c
  yuguo authored May 23, 2025
  
  80c5079c
22 May, 2025 3 commits
- Fix build error of userbuffer.cu · c636071d
  wenjh authored May 22, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  c636071d
- [DCU] Add width to __shfl · 6ed9a3e4
  wenjh authored May 22, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  6ed9a3e4
- [ROCM6.3] Fix build on rocm-6.3 · b27e513d
  wenjh authored May 22, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  b27e513d
21 May, 2025 2 commits
- [DCU] remove cudaStreamSynchronize for tp overlap · 92d59fe4
  yuguo authored May 21, 2025
  
  92d59fe4
- [DCU] fix merge · b65e50ba
  yuguo authored May 21, 2025
  
  b65e50ba
20 May, 2025 3 commits
- [DCU] cudaStreamSynchronize for tp gemm overlap · aec86199
  yuguo authored May 20, 2025
  
  aec86199
- [DCU] surpport delay_wgrad_compute in batchgemm · 460b006c
  yuguo authored May 20, 2025
  
  460b006c
- [DCU] variable ub streams add NVTE_UB_STREAM_NUMS · 196a213f
  yuguo authored May 20, 2025
  
  196a213f
16 May, 2025 2 commits

Added token ignoring for CE loss (#1789) · 42b51c40

Selvaraj Anandaraj authored May 17, 2025



* Added token ignoring for CE loss
Signed-off-by: Selvaraj Anandaraj <selvaraja@cw-dfw-cs-001-login-01.cm.cluster>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Added tests
Signed-off-by: root <root@cw-dfw-h100-004-210-013.cm.cluster>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



---------
Signed-off-by: Selvaraj Anandaraj <selvaraja@cw-dfw-cs-001-login-01.cm.cluster>
Co-authored-by: Selvaraj Anandaraj <selvaraja@cw-dfw-cs-001-login-01.cm.cluster>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

42b51c40

[JAX] Support logical partitioning axes in TE Flax modules (#1772) · 27612051

jberchtold-nvidia authored May 16, 2025



* [JAX] Update flax module param initialization to support logical partitioning axes
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

* Fix ffn1 intermediate result being replicated
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

* Lint
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

* Add documentation and assert when logical_axes=None
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

* Fix bias in LayerNormMLP flax module
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

* Fix layer tests to not use nn_partitioning and instead use nn.with_logical_axes
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

---------
Signed-off-by: Jeremy Berchtold <jberchtold@nvidia.com>

27612051

15 May, 2025 1 commit

Fix miscellaneous bugs during library loading (#1788) · d4f6d929

Kirthi Shankar Sivamani authored May 15, 2025



* Cleanup runtime library loading
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Better comments and logic
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix catching stray builds
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix missing fw case
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* minor grammar
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix duplicate SO for editable installs
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Better comment for build ext
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Improve error msg
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

d4f6d929

14 May, 2025 2 commits

Expose interleaved parameter for rotary position embeddings (#1783) · 1bd45b97

Peter St. John authored May 14, 2025


Signed-off-by: Peter St. John <pstjohn@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

1bd45b97

[HIPIFY] Add rules for hipify · a916fb7b

wenjh authored May 14, 2025



Add rules of cuda_runtime.h, cuda_driver.h and cuda_nvml.h to hip.
Signed-off-by: wenjh <wenjh@sugon.com>

a916fb7b