Commits · 5749aec6601f4cadf3055ae4f0ab82d77e0c47ca · OpenDAS / TransformerEngine

27 Apr, 2025 1 commit

[DTK-25.04] Workaround compiler bugs. · 5749aec6

wenjh authored Apr 27, 2025



Ref params of rmsnorm will make program corruption with 'nil' error.
Signed-off-by: wenjh <wenjh@sugon.com>

5749aec6

25 Apr, 2025 5 commits
- Merge branch 'main' of http://10.6.10.68/dcutoolkit/deeplearing/TransformerEngine · 8de7a1ce
  yuguo authored Apr 25, 2025
  
  8de7a1ce
- [DCU] tp overlap opt · caf2fbf2
  yuguo authored Apr 25, 2025
  
  caf2fbf2
- [DAS-RMSNorm] TE 2.3 returns 3 values of rmsnorm · daa15293
  panning authored Apr 25, 2025
```
API `rmsnorm_forward` of python returns 3 values rather than 2 from V2.3
Signed-off-by: wenjh <wenjh@sugon.com>
```
  daa15293
- Merge branch 'main' of http://10.6.10.68/dcutoolkit/deeplearing/TransformerEngine · 0b0a70a5
  yuguo authored Apr 25, 2025
  
  0b0a70a5
- [DCU] fix rocblas backend · e80f260d
  yuguo authored Apr 25, 2025
  
  e80f260d
24 Apr, 2025 2 commits

[DCU] Fix failed test cases · 3ce226ae

wenjh authored Apr 23, 2025



Due to the difference of warp size between nvidia(32) and dtk(64), the
OperatorTest/CTDBiasTestSuite.TestCTDBias/* are all failed except:

* OperatorTest/CTDBiasTestSuite.TestCTDBias/bfloat16Xfloat32X65536X128
* OperatorTest/CTDBiasTestSuite.TestCTDBias/bfloat16Xfloat16X65536X128
* OperatorTest/CTDBiasTestSuite.TestCTDBias/bfloat16Xbfloat16X65536X128
* OperatorTest/CTDBiasTestSuite.TestCTDBias/bfloat16Xfloat8e5m2X65536X128
* OperatorTest/CTDBiasTestSuite.TestCTDBias/bfloat16Xfloat8e4m3X65536X128

This commit is intended to fix this.
Signed-off-by: wenjh <wenjh@sugon.com>

3ce226ae

[DCU] Fix crash test cases · 46c81675

wenjh authored Apr 19, 2025



Due to the compiler compiling incorrect code. The following test case crashed:

* OperatorTest/CTTestSuite.TestCastTranspose/bfloat16Xbfloat16X2048X12288
* OperatorTest/CTTestSuite.TestCastTranspose/bfloat16Xbfloat16X65536X128
* OperatorTest/CTTestSuite.TestCastTranspose/bfloat16Xbfloat16X256X65536

This commit is intended to fix these test cases.
Signed-off-by: wenjh <wenjh@sugon.com>

46c81675

23 Apr, 2025 2 commits
- [DCU] fix gemm compile · 3e001bbd
  yuguo authored Apr 23, 2025
  
  3e001bbd
- [DCU] surpport rocm gemm rocblas · 8b27a2b7
  yuguo authored Apr 23, 2025
  
  8b27a2b7
22 Apr, 2025 1 commit
- [DCU] little fix · 73f3ac47
  yuguo authored Apr 22, 2025
  
  73f3ac47
18 Apr, 2025 1 commit
- [DCU] overlap bug fix in ECO and BW finally · 456a96c8
  yuguo authored Apr 18, 2025
  
  456a96c8
17 Apr, 2025 2 commits
- [DCU] tmp fix overlap test · b9ec4909
  yuguo authored Apr 17, 2025
  
  b9ec4909
- [DCU] rccl examples · 7e1270f7
  yuguo authored Apr 17, 2025
  
  7e1270f7
16 Apr, 2025 1 commit
- [DCU] tmp fix overlap allmethod · 07b750a2
  yuguo authored Apr 16, 2025
  
  07b750a2
14 Apr, 2025 1 commit
- [DCU] tmp fix · 8fb50d09
  yuguo authored Apr 14, 2025
  
  8fb50d09
11 Apr, 2025 2 commits
- Merge branch 'main' of http://10.6.10.68/dcutoolkit/deeplearing/TransformerEngine · b71ea424
  yuguo authored Apr 11, 2025
  
  b71ea424
- [DCU] tmp fix p2p overlap · dfd264c3
  yuguo authored Apr 11, 2025
  
  dfd264c3
10 Apr, 2025 2 commits
- Merge branch 'close_warning' into 'main' · 12fc1b14
  wenjh authored Apr 10, 2025
```
[DCU] add env vars to suppress build warnings

See merge request dcutoolkit/deeplearing/TransformerEngine!2
```
  12fc1b14
- [DCU] add env vars to suppress build warnings · b2b5b0e0
  wenjh authored Apr 10, 2025
  
  b2b5b0e0
09 Apr, 2025 2 commits
- Merge branch 'main' of http://10.6.10.68/dcutoolkit/deeplearing/TransformerEngine · 24b1c0ff
  yuguo authored Apr 09, 2025
  
  24b1c0ff
- [DCU] fix · d8992315
  yuguo authored Apr 09, 2025
  
  d8992315
08 Apr, 2025 2 commits
- Merge branch 'pann-rmsnorm' into 'main' · b16169cf
  yuguo authored Apr 08, 2025
```
add lightop rmsnorm

See merge request dcutoolkit/deeplearing/TransformerEngine!1
```
  b16169cf
- add lightop rmsnorm · 4f79b7a9
  panning authored Apr 08, 2025
  
  4f79b7a9
01 Apr, 2025 5 commits

Merge branch 'main' of https://github.com/NVIDIA/TransformerEngine · a207db1d
yuguo authored Apr 01, 2025

a207db1d

Bugfixes for LayerNormMLP (#1625) · 69365f88

guyueh1 authored Mar 31, 2025



* Fix GEMM+RS overlap for LayerNormMLP
Signed-off-by: Guyue Huang <guyueh@nvidia.com>

* Fix error LayerNormMLP param.grad is None
Signed-off-by: Guyue Huang <guyueh@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Update dtype for wgrad GEMM
Signed-off-by: Tim Moon <tmoon@nvidia.com>

---------
Signed-off-by: Guyue Huang <guyueh@nvidia.com>
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Tim Moon <tmoon@nvidia.com>

69365f88

[PyTorch] fix fuse_wgrad_accumulation in LayerNormMLP backward (#1618) · 77d64552

Marks101 authored Apr 01, 2025



* [PyTorch] fix general_gemm argument out_dtype in LayerNormMLP backward
Signed-off-by: Markus Schnoes <markus.schnoes@gmx.de>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



---------
Signed-off-by: Markus Schnoes <markus.schnoes@gmx.de>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

77d64552

[DCU] fix fp8 · fbee8990
yuguo authored Apr 01, 2025

fbee8990

[JAX] Refactor + MXFP8 + GroupedGEMM (#1627) · cf9a7c2f

Phuong Nguyen authored Mar 31, 2025



* refactor + mxfp8

* added grouped gemm

* rename linear to dense

* added cublas init phase for groupedGemm

* relax the tol of test encoder multiprocessing mxfp8 by 0.001
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>

---------
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>
Co-authored-by: Hua Huang <huah@nvidia.com>
Co-authored-by: Jeremy Berchtold <jberchtold@nvidia.com>

cf9a7c2f

31 Mar, 2025 4 commits

[PyTorch] Support default process group with FP8 current scaling (#1621) · be055eb0

Tim Moon authored Mar 31, 2025



* Handle case where FP8 current scaling quantizer gets default process group
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Fix linter warning
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Avoid canonicalizing TP group since it may not be initialized
Signed-off-by: Tim Moon <tmoon@nvidia.com>

---------
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

be055eb0

[JAX] Add fast path for causal masking with segment IDs. (#1601) · 3b1f5a11
Michael Goldfarb authored Mar 31, 2025
```
Add fast path for causal masking with segment IDs.
Signed-off-by: Michael Goldfarb <mgoldfarb@nvidia.com>
```
3b1f5a11
fix a sync race error of softmax_lse in CP+THD+P2P (#1624) · 76187a5e
Xiaowei Ren authored Mar 31, 2025
```
fix a race error softmax_lse
Signed-off-by: Xiaowei Ren <xren@nvidia.com>
```
76187a5e
[DCU] cpp test compile pass · 57deee08
yuguo authored Mar 31, 2025

57deee08

27 Mar, 2025 2 commits

[PyTorch] Add tests for current scaling; misc related fixes (#1606) · 3bcd7f6f

Kirthi Shankar Sivamani authored Mar 27, 2025



* Cleanup sanity tests and add CS recipe tests
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix sanity test
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix CG capture with CS recipe
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix ops for CG
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

3bcd7f6f

[DCU] compile pass · ab122dac
yuguo authored Mar 27, 2025

ab122dac

25 Mar, 2025 5 commits

[PyTorch] Optimize MXFP8 all-gathers (#1581) · 0356010c

Tim Moon authored Mar 25, 2025



* Coalesce NCCL all-gathers for MXFP8 all-gather
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Add missing import
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Cache quantized input tensor after linear module forward pass
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Fix linter warnings
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Avoid unnecessarily allocating layernorm output in LayerNormLinear/LayerNormMLP
Signed-off-by: Tim Moon <tmoon@nvidia.com>

---------
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

0356010c

[PyTorch] Minor fixes for TE 2.2 (#1589) · 65c2798a

Charlene Yang authored Mar 26, 2025



* skip cuDNN 9.8 for KV caching
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* revert from max_seqlen_kv to max_sequence_length for InferenceParams
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* rename test_paged_attn to test_kv_cache
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* remove redundant None returns in bwd
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* add debug flags when no backend is found
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* skip kv_cache_accuracy tests for cuDNN 9.8
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* truncate length of cu_seqlens for consistency with q/k/v shape
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* add back padding_brcm for fused attn tests
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* re-enable kv_cache_accuracy test for 9.8
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* fix cuDNN search dir
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* fixes based on review
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* remove extra empty line
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

---------
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

65c2798a

Fix mxfp8 columnwise data missing (#1593) · abbdd769

guyueh1 authored Mar 25, 2025



* Fix mxfp8 columnwise data missing when switching from validation to training
Signed-off-by: Guyue Huang <guyueh@login-preos02.a51.clusters.nvidia.com>

* Fix when you interleave training and inference
Signed-off-by: Guyue Huang <guyueh@login-preos02.a51.clusters.nvidia.com>

* refact
Signed-off-by: Guyue Huang <guyueh@login-preos02.a51.clusters.nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* rm useless code
Signed-off-by: Guyue Huang <guyueh@login-preos02.a51.clusters.nvidia.com>

* Update transformer_engine/pytorch/module/base.py
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: guyueh1 <140554423+guyueh1@users.noreply.github.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Fix linter warnings
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

---------
Signed-off-by: Guyue Huang <guyueh@login-preos02.a51.clusters.nvidia.com>
Signed-off-by: guyueh1 <140554423+guyueh1@users.noreply.github.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Guyue Huang <guyueh@login-preos02.a51.clusters.nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

abbdd769

[PyTorch] Defer torch compilation steps until first function call (#1599) · cf00d537

Peter St. John authored Mar 25, 2025



* Defer torch compilation steps until first function call
Signed-off-by: Peter St. John <pstjohn@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Fix function call in smoke test
Signed-off-by: Peter St. John <pstjohn@nvidia.com>

---------
Signed-off-by: Peter St. John <pstjohn@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

cf00d537

[PyTorch] Fix issues for MCore DDP in grouped GEMM. (#1609) · b59d1d8b

Li Tao authored Mar 26, 2025



fix mcore DDP error
Signed-off-by: lit <lit@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

b59d1d8b