Commits · ae572af06c46d54a2bc4b22e6bbff726efd7e0c8 · OpenDAS / TransformerEngine

17 Jun, 2025 1 commit

[JAX] Fixes for L0_jax_distributed_unittest (#1884) · ae572af0

Phuong Nguyen authored Jun 17, 2025



* include previously accidentally excluded tests

* Execute run_test_multiprocessing_encoder with nested bash + exit code for inner bash shell

* Adapt run_test_multiprocessing to handle segfault
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>

---------
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>

ae572af0

05 Jun, 2025 1 commit

[JAX] Fix OTYPE for FP8 GEMM (#1838) · 6123d7e0

Phuong Nguyen authored Jun 05, 2025



* fix otype for fp8 gemm
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>
---------
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>

6123d7e0

17 Apr, 2025 1 commit

[QA] Add XML log generation for pytest results (#1661) · a0cabb71

linxiddd authored Apr 17, 2025



* [QA] Add error handling

- Standardize test failure handling using the unified 'test_fail' function and 'error_exit' function
Signed-off-by: Linxi Ding <linxid@nvidia.com>

* Add XML log generation for pytest results

- Add `--junitxml` option to pytest command to generate JUnit XML format logs
Signed-off-by: Linxi Ding <linxid@nvidia.com>

* Add $XML_LOG_DIR
Signed-off-by: Linxi Ding <linxid@nvidia.com>

* mkdir
Signed-off-by: Linxi Ding <linxid@nvidia.com>

* Update qa/L0_pytorch_unittest/test.sh
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

---------
Signed-off-by: Linxi Ding <linxid@nvidia.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

a0cabb71

15 Apr, 2025 1 commit

[JAX] Improving the test_multiprocessing_encoder.py run script (#1673) · 313ab4f4

Phuong Nguyen authored Apr 14, 2025



* script improvement

* add wait

* add return code back

* relax tols for FP8 test in test_multiprocessing_ by 0.001

---------
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>

313ab4f4

09 Apr, 2025 1 commit

[JAX] Scaling Enum Abstracting (#1655) · 962d9c53

Phuong Nguyen authored Apr 09, 2025



* scaling enum abstract

* rm NVTE_ from ScalingMode names

* rework scaling mode enum in grouped gemm

* fix norm sharding

---------
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>

962d9c53

17 Mar, 2025 1 commit

[QA] Add error handling (#1570) · c571c2fd

linxiddd authored Mar 18, 2025



* [QA] Add error handling

-Standardize test failure handling using the unified 'test_fail' function and 'error_exit' function.
Signed-off-by: Linxi Ding <linxid@nvidia.com>

* Update script to use explicit python3, pip3, and python3 -m pytest calls

- Change pip to pip3.
- Change python to python3.
- Change pytest to python3 -m pytest.
Signed-off-by: Linxi Ding <linxid@nvidia.com>

---------
Signed-off-by: Linxi Ding <linxid@nvidia.com>

c571c2fd

13 Mar, 2025 1 commit

Explicitly use `python3` and `pip3` executables (#1486) · 31f32b37

Tim Moon authored Mar 12, 2025



* Explicitly use python3 and pip3
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Run pre-commit as Python module
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Replace some missed references to "python" or "pip"
Signed-off-by: Tim Moon <tmoon@nvidia.com>

---------
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

31f32b37

11 Jan, 2025 1 commit

[JAX] Test_multiprocessing_encoder with process spawn in bash (#1394) · a65ad37e

Phuong Nguyen authored Jan 10, 2025



* add test_multiprocessing_encoder with processing spawning in bash

---------
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>

a65ad37e

02 Jan, 2025 1 commit
- Update copyright to include 2025 (#1388) · c9ea6be9
  Kirthi Shankar Sivamani authored Jan 02, 2025
```
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
  c9ea6be9
18 Dec, 2024 1 commit

[JAX] Move parallel encoder tests to L0 distributed test set. (#1356) · a3b32ec6

Phuong Nguyen authored Dec 18, 2024



* Move test distributed encoder to L0 distributed test suit

---------
Signed-off-by: Phuong Nguyen <phuonguyen@nvidia.com>
Co-authored-by: Reese Wang <rewang@nvidia.com>

a3b32ec6

20 Feb, 2024 1 commit
- Move distributed tests to L1 (#673) · 2187a8f3
  Kirthi Shankar Sivamani authored Feb 20, 2024
```
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
  2187a8f3
01 Feb, 2024 1 commit

[JAX] Fix unfused GQA performance (#643) · 29b0c9ca

zlsh80826 authored Feb 02, 2024



* Fix unfused GQA perf
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Remove WAR for Check failed: reduction_kind.has_value()
Signed-off-by: Reese Wang <rewang@nvidia.com>

---------
Signed-off-by: Reese Wang <rewang@nvidia.com>

29b0c9ca

16 Jan, 2024 1 commit

[JAX][Common] Support GQA (#578) · 8f6c5248

zlsh80826 authored Jan 17, 2024



* Support num_gqa_groups arguments
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Add GQA support on the JAX bridge code
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Fix the kv stride of the arbitrary backend
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Complete rewrite fused attention tests and add GQA coverage
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Support unfused GQA
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Calculate seqlen before the primitive for the better perf
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Add GQA layer tests
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Apply code style checks for te_jax
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Apply code style checks for tests
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Add num_gqa_groups doc
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Refine the qkv_type
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Correct the variable naming
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Handle Max512 CAUSAL
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Add WAR for the latest jax image
Signed-off-by: Reese Wang <rewang@nvidia.com>

---------
Signed-off-by: Reese Wang <rewang@nvidia.com>

8f6c5248

03 Jan, 2024 1 commit
- Change the copyright to include 2024 (#583) · cd798c97
  Przemyslaw Tredak authored Jan 02, 2024
```
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
```
  cd798c97
20 Nov, 2023 1 commit

[JAX] Fix JAX distributed unit tests (#521) · ea43b18e

zlsh80826 authored Nov 21, 2023



* Remove assertion for NO_MASK
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Fix JAX distributed unit tests name
Signed-off-by: Reese Wang <rewang@nvidia.com>

---------
Signed-off-by: Reese Wang <rewang@nvidia.com>

ea43b18e

03 Nov, 2023 1 commit

[JAX] Regression tests for custom ops with jax.experimental.custom_partitioning (#471) · d20ba9fb

Alp Dener authored Nov 03, 2023



[JAX] Regression tests for custom ops sharding with both xmap and custom_partitioning.

Coverage:
- layernorm: fwd/grad, zero_centered_gamma, DP, TP_COL, DP_TP_COL
- rmsnorm: fwd/grad, DP, TP_COL, DP_TP_COL
- softmax: fwd/grad, SCALED, SCALED_MASKED, SCALED_UPPER_TRIANG_MASKED, DP, TP_COL, TP_ROW, DP_TP_COL, DP_TP_ROW
- self_fused_attn: fwd/grad, NO_BIAS, PRE_SCALE_BIAS, POST_SCALE_BIAS, NO_MASK, CAUSAL_MASK, PADDING_MASK, DP, TP_COL, DP_TP_COL
- cross_fused_attn: fwd/grad, NO_BIAS, NO_MASK, PADDING_MASK, DP, TP_COL, DP_TP_COL
Signed-off-by: Alp Dener <adener@nvidia.com>

d20ba9fb