Commits · 1b20f2d67f02ad6eca3a75c7477e8fdedb05dc58 · OpenDAS / TransformerEngine

10 Apr, 2024 1 commit
- Fix undefined symbol issue for transformer_engine::getenv (#763) · 1b20f2d6
  Jinze Xue authored Apr 10, 2024
```
Signed-off-by: Jinze Xue <jinzex@nvidia.com>
Co-authored-by: Jinze Xue <jinzex@nvidia.com>
```
  1b20f2d6
06 Apr, 2024 3 commits

[JAX] Adapt latest JAX/PAX image (#744) · bfe21c3d

Reese Wang authored Apr 07, 2024



* value_and_grad requires same shape for input and gradients
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Use high precision layernorm
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Remove local_device_ids as it caused unexpected behaviors
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Revert "Remove local_device_ids as it caused unexpected behaviors"

This reverts commit c54349b2ce1e96ae696cf0d74f5210e55002cf72.
Signed-off-by: Reese Wang <rewang@nvidia.com>

---------
Signed-off-by: Reese Wang <rewang@nvidia.com>

bfe21c3d

Fix the default userbuffer communicator init settings (#755) · d541d208
Sangkug Lym authored Apr 05, 2024
```
fix the default userbuffer communicator init settings
Signed-off-by: Sangkug Lym <slym@nvidia.com>
```
d541d208

Enable DGRAD RS overlap (#754) · e3de4037

Jaemin Choi authored Apr 05, 2024



* Enable DGRAD RS overlap
Signed-off-by: Jaemin Choi <jaeminc@nvidia.com>

* fix lint; apply suggestions
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Jaemin Choi <jaeminc@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Vasudevan Rengasamy <vrengasamy@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

e3de4037

04 Apr, 2024 4 commits

userbuffer: support fp8 buffer for individual overlap instance (#750) · 7d8ef9bf

Sangkug Lym authored Apr 04, 2024



* userbuffer fp8 reduction support for individual overlap
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* cleanup dict ub_cfg dict value load
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* cleanup
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* Remove unnecessary fence from producer

From @erhoo82 
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Sangkug Lym <slym@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

7d8ef9bf

Compile tuned RMSNorm kernels for hidden size 8192 (#747) · 27cb9950
Tim Moon authored Apr 04, 2024
```
Signed-off-by: Tim Moon <tmoon@nvidia.com>
```
27cb9950

[PyTorch] Fix backward compatibility for checkpoint API (#748) · ce328fac

Kirthi Shankar Sivamani authored Apr 04, 2024



* Args can be None
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix other arg types
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

ce328fac

Fixing potential integer overflow on sequence counter (#729) · e1e2b76e

Pavel Shamis (Pasha) authored Apr 03, 2024



* Fixing potential integer overflow on sequence counter

Current implementation may potential cause hangs or data corruption
Signed-off-by: Pasha (Pavel) Shamis <pasharesearch@gmail.com>

* Fixing typo in comments

Addressing reviewers comments
Signed-off-by: Pasha (Pavel) Shamis <pasharesearch@gmail.com>

---------
Signed-off-by: Pasha (Pavel) Shamis <pasharesearch@gmail.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

e1e2b76e

03 Apr, 2024 5 commits

Update README.rst (#733) · 1fa5bf18

Santosh Bhavani authored Apr 03, 2024



* Update README.rst

1. Updated latest news with databricks blog
2. Fixed formatting issues
3. Added GTC 2024 video
Signed-off-by: Santosh Bhavani <santosh@semantic.md>

* Update README.rst

added back overview marker for docs generation
Signed-off-by: Santosh Bhavani <santosh@semantic.md>

* Added MPT-13B convergence result
Signed-off-by: Santosh Bhavani <santosh@semantic.md>

* Added Levanter/JAX to integrations section of README
Signed-off-by: Santosh Bhavani <santosh@semantic.md>

* Update README.rst
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Update README.rst
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Update README.rst
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Update README.rst
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Update README.rst
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Santosh Bhavani <santosh@semantic.md>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

1fa5bf18

Atomic gemm for TP-AR and TP-RS overlap with P2P exchanges (#732) · 180de056

Sangkug Lym authored Apr 02, 2024



* Atomic gemm for TP-AR and TP-RS overlap with P2P exchanges
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* FP8 reduction for atomic TP-RS with p2p exchange
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* Fix
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Sangkug Lym <slym@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

180de056

Do not store input activations when not computing weight gradients (#739) · 580eb52b

Sangkug Lym authored Apr 02, 2024



* Do not store input activations when not computing weight gradients
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* fix userbuffer tp comm overlap case
Signed-off-by: Sangkug Lym <slym@nvidia.com>

---------
Signed-off-by: Sangkug Lym <slym@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

580eb52b

Add NVLS-MC based UB kernels (#721) · 8e7795e1

vasunvidia authored Apr 02, 2024



Fix license, and sign off everything
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Vasudevan Rengasamy <vrengasamy@nvidia.com>

8e7795e1

Revert "Update FA version to 2.5.6 (#714)" · 47276e1b
Kirthi Shankar Sivamani authored Apr 02, 2024
```
This reverts commit 965803c9.
```
47276e1b

02 Apr, 2024 1 commit
- Set CUDA context before loading NVRTC kernels (#734) · 2dd6b146
  Tim Moon authored Apr 02, 2024
```
Signed-off-by: Tim Moon <tmoon@nvidia.com>
```
  2dd6b146
31 Mar, 2024 1 commit

Llama tutorial fixes (#730) · 16a469df

Paweł Gadziński authored Mar 31, 2024



Llama tutorial fixes - all
Signed-off-by: Pawel Gadzinski <pgadzinski@nvidia.com>
Co-authored-by: Pawel Gadzinski <pgadzinski@nvidia.com>

16a469df

29 Mar, 2024 2 commits

[PyTorch] Fix backward compatibility with checkpoint API (#740) · 12cbd863

Kirthi Shankar Sivamani authored Mar 28, 2024



* Fix backward compatibility with checkpoint API
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* review comments and fix lint
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

12cbd863

[PyTorch] Fix bug in FP8 cast in LayerNormLinear/LayerNormMLP (#738) · df1b16da
Tim Moon authored Mar 28, 2024
```
Perform FP8 cast on gathered layernorm output in LayerNormLinear
Signed-off-by: Tim Moon <tmoon@nvidia.com>
```
df1b16da

22 Mar, 2024 2 commits

Enable TP-AG overlap with return_layernorm_output (#727) · c1a68f6c

Jaemin Choi authored Mar 22, 2024



* Enable TP-AG overlap with return_layernorm_output
Signed-off-by: Jaemin Choi <jaeminc@nvidia.com>

* Use ub_overlap_ag
Signed-off-by: Jaemin Choi <jaeminc@nvidia.com>

---------
Signed-off-by: Jaemin Choi <jaeminc@nvidia.com>
Co-authored-by: Jaemin Choi <jaeminc@nvidia.com>

c1a68f6c

[JAX] Refactor fused attention (#711) · 8e672ff0

Reese Wang authored Mar 22, 2024



* Remove unused headers
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Unify the fused attn workspace size cpp code
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Reduce the skipped cases
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Rename self/cross attention to qkvpacked/kvpacked
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Update attention mask docs
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Refine the attn mask implementations
Signed-off-by: Reese Wang <rewang@nvidia.com>

---------
Signed-off-by: Reese Wang <rewang@nvidia.com>

8e672ff0

21 Mar, 2024 2 commits

TP-RS overlap with send/recv ring-exchange (#724) · b855656b

Sangkug Lym authored Mar 21, 2024



* TP-RS overlap with send/recv

Atomic GEMM based TP-RS overlap with send/recv
Signed-off-by: Sangkug Lym <slym@nvidia.com>

Specify userbuffer overlap method of each overlap instance
Signed-off-by: Sangkug Lym <slym@nvidia.com>

P2P TP-RS overlap with fp8 GEMM outputs
Signed-off-by: Sangkug Lym <slym@nvidia.com>

Fix TP-RS overlap with send/recv
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* cleanup
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* cleanup
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* linting
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* fix typo
Signed-off-by: Sangkug Lym <slym@nvidia.com>

---------
Signed-off-by: Sangkug Lym <slym@nvidia.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

b855656b

[Pytorch] Update context parallel softmax lse correction func (#716) · 59bfc17b

Kite0011 authored Mar 21, 2024



[Pytorch] Update context parallel softmax lse correction func.
Signed-off-by: kitefang <kitefang@tencent.com>
Co-authored-by: kitefang <kitefang@tencent.com>

59bfc17b

20 Mar, 2024 2 commits

Llama accelerate tutorial (#720) · c38779be

Sudhakar Singh authored Mar 20, 2024



* tutorial and doc fixes
Signed-off-by: Sudhakar Singh <sudhakars@nvidia.com>

* remove extra code
Signed-off-by: Sudhakar Singh <sudhakars@nvidia.com>

* fix typos
Signed-off-by: Sudhakar Singh <sudhakars@nvidia.com>

---------
Signed-off-by: Sudhakar Singh <sudhakars@nvidia.com>

c38779be

Update FA version to 2.5.6 (#714) · 965803c9
Kirthi Shankar Sivamani authored Mar 20, 2024
```
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
965803c9

18 Mar, 2024 1 commit
- Changed VERSION to 1.6.0dev · a3ba77b8
  Kirthi Shankar Sivamani authored Mar 18, 2024
```
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
  a3ba77b8
15 Mar, 2024 1 commit

Rachitg/dp carveout (#722) · 1ec33ae1

Rachit Garg authored Mar 15, 2024



* fix the perf regression because of constant property polling of the device
Signed-off-by: Rachit Garg <rachitg@nvidia.com>

* Fix lint error
Signed-off-by: Tim Moon <tmoon@nvidia.com>

---------
Signed-off-by: Rachit Garg <rachitg@nvidia.com>
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: Rachit Garg <rachitg@nvidia.com>
Co-authored-by: Tim Moon <tmoon@nvidia.com>

1ec33ae1

14 Mar, 2024 1 commit

Ln force no weight sharding (#715) · ffa24475

Keshav Balasubramanian authored Mar 14, 2024



* disallow sharding of layernorm learnable parameters; force duplication
Signed-off-by: Keshav <keshavb@nvidia.com>

* fix tests and support tensors for gamma/beta in layernorms
Signed-off-by: Keshav <keshavb@nvidia.com>

* reverting
Signed-off-by: Keshav <keshavb@nvidia.com>

* added tests for rank-1 gamma/beta sharding
Signed-off-by: Keshav <keshavb@nvidia.com>

* fix lint errors
Signed-off-by: Keshav <keshavb@nvidia.com>

---------
Signed-off-by: Keshav <keshavb@nvidia.com>

ffa24475

13 Mar, 2024 2 commits

Update README - Latest News (#718) · 2d0ab27f

Santosh Bhavani authored Mar 13, 2024



Update README.rst - Latest News

Added an entry to Latest News section
Signed-off-by: Santosh Bhavani <santosh@semantic.md>

2d0ab27f

add external margin (#713) · e3d2efd7

Rachit Garg authored Mar 13, 2024



Add envvar for SM margin in GEMM
Signed-off-by: Rachit Garg <rachitg@nvidia.com>
Co-authored-by: Rachit Garg <rachitg@nvidia.com>

e3d2efd7

11 Mar, 2024 1 commit

[Common] Fix build errors with recent cuDNN frontend versions (#696) · a38b291b

Tim Moon authored Mar 11, 2024



Remove deprecated cudnn_frontend::throw_if

Deprecated in cudnn-frontend 1.1.0.
Signed-off-by: Tim Moon <tmoon@nvidia.com>

a38b291b

07 Mar, 2024 1 commit

Support FP16 for user buffer (#690) · 8255f87f

Hongbin Liu authored Mar 08, 2024



* add_dtype_for_userbuf
Signed-off-by: Hongbin Liu <hongbinl@nvidia.com>

* Update transformer_engine/pytorch/module/base.py
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

* Fix syntax
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix lint
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Hongbin Liu <hongbinl@nvidia.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Hongbin Liu <hongbinl@nvidia.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

8255f87f

06 Mar, 2024 3 commits

[PyTorch] Adjusted the logic of MHA and DPA to enable speculative decoding (#668) · b459ccc9

Oleg Goncharov authored Mar 06, 2024



* Modified MHA and DPA logic to use causal softmax and FA for inference
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* Adjusted unfused attention and softmax logic for inference
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* Cleaned up the code per pylint
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* Added test cases to evaluate numerics of incremental decoding
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* Apply suggestions from code review
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Oleg Goncharov <64355998+Oleg-Goncharov@users.noreply.github.com>

* Apply suggestions from code review [sequence start-end]
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Oleg Goncharov <64355998+Oleg-Goncharov@users.noreply.github.com>

* Apply suggestions from code review [inference_params offset update]]
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Oleg Goncharov <64355998+Oleg-Goncharov@users.noreply.github.com>

* Fixed bug in KV-cache indices and updated test suite
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* Added inference_params description and applied suggestions from the code review
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* Adjusted absolute tolerances in numerics tests
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

* Cleaned up the files per pylint
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>

---------
Signed-off-by: Oleg Goncharov <ogoncharov@nvidia.com>
Signed-off-by: Oleg Goncharov <64355998+Oleg-Goncharov@users.noreply.github.com>
Co-authored-by: Przemyslaw Tredak <ptredak@nvidia.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

b459ccc9

Fix types for forward attention for JAX. (#704) · 728e335f

George Karpenkov authored Mar 06, 2024



Bias and seed can both be None, type checking is failed otherwise.
Signed-off-by: George Karpenkov <george@metaworld.me>

728e335f

Return layernorm output in the gathered form (#697) · d8f678dc

Chen Cui authored Mar 06, 2024



* first draft of return_layernorm_output_gathered
Signed-off-by: Chen Cui <chcui@nvidia.com>

* explain use case more thoroughly in docstring
Signed-off-by: Chen Cui <chcui@nvidia.com>

* add same option in `LayerNormMLP`
Signed-off-by: Chen Cui <chcui@nvidia.com>

* Update transformer_engine/pytorch/module/layernorm_linear.py
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Chen Cui <cxcui@alumni.cmu.edu>

* Update transformer_engine/pytorch/module/layernorm_linear.py
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Chen Cui <cxcui@alumni.cmu.edu>

* address comments
Signed-off-by: Chen Cui <chcui@nvidia.com>

* add same option in LayerNormMLP
Signed-off-by: Chen Cui <chcui@nvidia.com>

* address linter errors
Signed-off-by: Chen Cui <chcui@nvidia.com>

---------
Signed-off-by: Chen Cui <chcui@nvidia.com>
Signed-off-by: Chen Cui <cxcui@alumni.cmu.edu>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

d8f678dc

05 Mar, 2024 2 commits
- Disable UB bulk wgrad when weights are frozen (#702) · b0f65354
  Jaemin Choi authored Mar 05, 2024
```
Signed-off-by: Jaemin Choi <jaeminc@nvidia.com>
Co-authored-by: Jaemin Choi <jaeminc@nvidia.com>
```
  b0f65354
- Update README.rst to show the table in FP8 Convergence. (#678) · 3f8baf95
  Zhenhuan Liu authored Mar 05, 2024
```
Signed-off-by: Zhenhuan Liu <nkulzh16@gmail.com>
```
  3f8baf95
04 Mar, 2024 2 commits

[PyTorch] Update doc for checkpoint API (#695) · 24f78acb
Kirthi Shankar Sivamani authored Mar 04, 2024
```
Update checkpoint API doc
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
24f78acb

Enable incremental CMake build (#684) · 509ab0b0

Jinze Xue authored Mar 04, 2024



* Enable incremental CMake build
Signed-off-by: Jinze Xue <jinzex@nvidia.com>

* Update setup.py
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Jinze Xue <155670984+jinzex@users.noreply.github.com>

* Update setup.py
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Jinze Xue <155670984+jinzex@users.noreply.github.com>

* remove tempfile import
Signed-off-by: Jinze Xue <jinzex@nvidia.com>

---------
Signed-off-by: Jinze Xue <jinzex@nvidia.com>
Signed-off-by: Jinze Xue <155670984+jinzex@users.noreply.github.com>
Co-authored-by: Jinze Xue <jinzex@nvidia.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

509ab0b0

01 Mar, 2024 2 commits

[PyTorch] Use dummy amax for Float8Tensor cast (#693) · 4e2ce516

Kirthi Shankar Sivamani authored Mar 01, 2024



* Avoid updating real during param cast
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Review comments
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

4e2ce516

Create a small tutorial on how to accelerate HF Llama models with Transformer-Engine (#615) · 0bd84ed9
Sudhakar Singh authored Feb 29, 2024

0bd84ed9

29 Feb, 2024 1 commit
- Slightly more explicit error message for invalid FP8 GEMM dims (#692) · df4bf796
  Tim Moon authored Feb 29, 2024
```
Tweak error message for invalid FP8 GEMM dims
Signed-off-by: Tim Moon <tmoon@nvidia.com>
```
  df4bf796