Commits · e456110b56e9616e20bf5c9ea320e4ff3a729fcf · OpenDAS / TransformerEngine

15 Dec, 2022 1 commit
- Add new users to TE CI · e456110b
  Przemek Tredak authored Dec 15, 2022
  
  e456110b
08 Dec, 2022 1 commit

Move the amax/scale/scale_inv into the TE Tensor struct. (#33) · a5ba71f3

Przemyslaw Tredak authored Dec 08, 2022



* Move the amax/scale/scale_inv into the TE Tensor struct.
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Handle multi_cast_transpose
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Changed softmax to new Tensor
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* First pass at the cpp tests
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Round of fixes
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Fix multi_cast_transpose
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Fix cast_to_fp8
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Przemyslaw Tredak <ptrendx@gmail.com>
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
Signed-off-by: Przemyslaw Tredak <ptrendx@gmail.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

a5ba71f3

07 Dec, 2022 1 commit

Ensure contiguous inputs (#38) · 509bf877

Kirthi Shankar Sivamani authored Dec 06, 2022



ensure contiguous inputs
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

509bf877

06 Dec, 2022 1 commit

Softmax docstrings and type fixes (#37) · 89f94ba2

Kirthi Shankar Sivamani authored Dec 05, 2022



* Softmax docs and type fixes
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* lint whitespace
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* change API, better naming, const fixes
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

89f94ba2

02 Dec, 2022 1 commit

Link performance optimization tutorial to docs (#36) · 0291a608

Przemyslaw Tredak authored Dec 02, 2022


Signed-off-by: Przemyslaw Tredak <ptredak@nvidia.com>
Signed-off-by: Przemyslaw Tredak <ptredak@nvidia.com>

0291a608

01 Dec, 2022 3 commits

cleanup pylintrc (#35) · 84d3d12a

Kirthi Shankar Sivamani authored Dec 01, 2022


Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

84d3d12a

Framework agnostic softmax kernels (#30) · f674d49e

Kirthi Shankar Sivamani authored Dec 01, 2022



* Make fused softmax kernels PyTorch independent
Co-authored-by: Sean Lee <selee@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Address review comments
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* move get_batch_per_block to python
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix license in softmax.h
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Sean Lee <selee@nvidia.com>

f674d49e

Add pylint to Lint action (#19) · b2743878

Przemyslaw Tredak authored Nov 30, 2022



* Add pylint to Lint action
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Test Ubuntu 20.04
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Pylint inside the container
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Update transformer_engine/pytorch/distributed.py
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Przemyslaw Tredak <ptrendx@gmail.com>
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
Signed-off-by: Przemyslaw Tredak <ptrendx@gmail.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

b2743878

30 Nov, 2022 1 commit

Fix illegal memory access in general layer norm backward kernel (#34) · 693d6541

Tim Moon authored Nov 30, 2022



Fix illegal memory access in layernorm backward kernel
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Signed-off-by: Tim Moon <tmoon@nvidia.com>

693d6541

28 Nov, 2022 1 commit

Multi-tensor cast-transpose (#18) · 2a3916b4

Tim Moon authored Nov 28, 2022



* Add kernel for multi-tensor cast-transpose
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Fix incorrect test function in multi-tensor cast-transpose unit test
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Remove std::vector from multi-tensor cast-transpose function signature

Makes sure the main header is C-compatible.
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: Przemyslaw Tredak <ptredak@nvidia.com>

2a3916b4

23 Nov, 2022 1 commit

Full activation recompute checkpointing bug fix (#31) · d10dfb57

Kirthi Shankar Sivamani authored Nov 23, 2022



fix checkpoint loading bug for FAR
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

d10dfb57

18 Nov, 2022 2 commits

Changed version to 0.4.0dev · 6d2294b2
Przemek Tredak authored Nov 18, 2022
```
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
```
6d2294b2

Documentation for advanced performance optimizations (#20) · 8e7f4c8c

Tim Moon authored Nov 18, 2022



* Documentation for advanced perf optimizations

Fix bug where we were doing backward passes inside fp8_autocast in example notebooks.
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Minor tweaks to advanced perf optimization docs

Review suggestions from @ptrendx
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Rewording sequence parallelism in advanced perf optimization docs

Review suggestion from @ksivaman
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

8e7f4c8c

17 Nov, 2022 1 commit

Make amax reduction optional (#11) · 681bf9ad

Kirthi Shankar Sivamani authored Nov 16, 2022



* Make amax reduction optional
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* remove setup for global amax redux for optional case
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Improve documentation
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Address documentation review
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Documentation fix
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* better FP8 checkpointing
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Making checkpointing backwards compatible
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Add deprecation warning for old checkpoint loading
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix checkpointing for fp8 recompute case
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* improvements to deprecation warning
Co-authored-by: Przemyslaw Tredak <ptrendx@gmail.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Przemyslaw Tredak <ptredak@nvidia.com>
Co-authored-by: Przemyslaw Tredak <ptrendx@gmail.com>

681bf9ad

16 Nov, 2022 1 commit

Fix bugs for full activation recompute in FP8 (#24) · c149c145

Kirthi Shankar Sivamani authored Nov 16, 2022



* Fix bugs for full activation recompute in FP8
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Ensure identical numerics in recomputation for pipeline parallelism
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* expose checkpoint API and add docs
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* complete checkpointing docs
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

c149c145

15 Nov, 2022 1 commit

Fixes #26 (#29) · 9f7b0255

Kirthi Shankar Sivamani authored Nov 15, 2022



addressed LayerNormMLP bias issue #26
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

9f7b0255

08 Nov, 2022 1 commit
- Fix the out-of-bounds access in the C+T+dbias kernel (#28) · acf98b5c
  Przemyslaw Tredak authored Nov 08, 2022
```
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
```
  acf98b5c
04 Nov, 2022 1 commit
- Blossom-CI -> TE-CI renaming · 85e0373f
  Przemek Tredak authored Nov 04, 2022
  
  85e0373f
03 Nov, 2022 2 commits

Conditional wgrad support (#21) · 78210127

schetlur-nv authored Nov 03, 2022



* Conditional dgrad/wgrad support
Signed-off-by: Sharan Chetlur <schetlur@dlcluster.nvidia.com>

* Fixing the change to depend only on requires_grad. Also updating LayerNorm MLP
Signed-off-by: Sharan Chetlur <schetlur@dlcluster.nvidia.com>

* Minor fixes.
Signed-off-by: Sharan Chetlur <schetlur@dlcluster.nvidia.com>

* Adding conditional wgrad for LayerNormLinear
Signed-off-by: Sharan Chetlur <schetlur@dlcluster.nvidia.com>

* bug fix and remove conditional dgrad

Co-authored-by: schetlur-nv schetlur@nvidia.com
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Adding unit test for wgrad disabled path
Signed-off-by: Sharan Chetlur <schetlur@dlcluster.nvidia.com>

* Adding more unit tests for wgrad disabled path
Signed-off-by: Sharan Chetlur <schetlur@dlcluster.nvidia.com>

* Adding unit tests for fp8 wgrad disabling, and cleaning up the code.
Signed-off-by: Sharan Chetlur <schetlur@dlcluster.nvidia.com>

* fix lint errors
Co-Authored-By: Sharan Chetlur <schetlur@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Sharan Chetlur <schetlur@dlcluster.nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Sharan Chetlur <schetlur@dlcluster.nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

78210127

Update README.md (#27) · 924892fd

nzmora-nvidia authored Nov 03, 2022

Fix the sample code so it compiles after the signature of `te.Linear` has changed.
Signed-off-by: nzmora-nvidia <96238833+nzmora-nvidia@users.noreply.github.com>
Signed-off-by: nzmora-nvidia <96238833+nzmora-nvidia@users.noreply.github.com>

924892fd

31 Oct, 2022 1 commit

Test build as GitHub action (#13) · 415caeb6

Przemyslaw Tredak authored Oct 31, 2022



* Build the wheel as GitHub action
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Change the sanity test
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

415caeb6

28 Oct, 2022 1 commit
- Change the Blossom CI workflow · 92e6ee1d
  Przemek Tredak authored Oct 21, 2022
```
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
```
  92e6ee1d
20 Oct, 2022 2 commits
- Changed version to 0.3.0dev · b2cda56c
  Przemek Tredak authored Oct 20, 2022
```
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
```
  b2cda56c
- Add link to the documentation archives in the docs (#14) · 98cb5ac7
  Przemyslaw Tredak authored Oct 20, 2022
```
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
```
  98cb5ac7
12 Oct, 2022 1 commit

Remove fp8_out from the LN API (#8) · 6a2161bf

Przemyslaw Tredak authored Oct 12, 2022



* Remove fp8_out from LN API
Signed-off-by: Przemyslaw Tredak <ptredak@nvidia.com>

* fix LN test
Signed-off-by: Przemyslaw Tredak <ptredak@nvidia.com>

* Fixes
Signed-off-by: Przemyslaw Tredak <ptredak@nvidia.com>
Signed-off-by: Przemyslaw Tredak <ptredak@nvidia.com>
Co-authored-by: ksivamani <ksivamani@nvidia.com>

6a2161bf

10 Oct, 2022 1 commit

Add C++ lint as GitHub action (#10) · 62f93325

Przemyslaw Tredak authored Oct 10, 2022



Add lint test as GitHub action
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

62f93325

07 Oct, 2022 1 commit
- Add Blossom CI yml (#9) · b0562288
  Przemyslaw Tredak authored Oct 07, 2022
```
Add blossom-ci.yml
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
```
  b0562288
05 Oct, 2022 2 commits

fix documentation for default FP8 recipe format (#6) · 1568c6ed

Kirthi Shankar Sivamani authored Oct 05, 2022


Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

1568c6ed

rm deprecated pytest-runner requirement from setup (#7) · 2db83763

Kirthi Shankar Sivamani authored Oct 05, 2022


Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

2db83763

04 Oct, 2022 4 commits

Improve check in world size; None is valid group (#4) · a6b5f96d

Kirthi Shankar Sivamani authored Oct 04, 2022


Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

a6b5f96d

fix TP case to rm redundant AR (#3) · 5612ba78

Kirthi Shankar Sivamani authored Oct 04, 2022


Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

5612ba78

fp8_autocast bug fix when switching from non-fp8 execution (#2) · a2caec1e

Kirthi Shankar Sivamani authored Oct 04, 2022


Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

a2caec1e

Added the link to the User Guide (#1) · 1531dc78

Przemyslaw Tredak authored Oct 03, 2022


Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

1531dc78

28 Sep, 2022 2 commits

Changed VERSION to 0.2.0dev · 6c0469be
Przemek Tredak authored Sep 27, 2022
```
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
```
6c0469be

Inital code drop · 996ea169

Przemek Tredak authored Sep 27, 2022


Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

996ea169