Commits · 83911ddb4ec6a177956b536102968425d7818a28 · OpenDAS / TransformerEngine

09 May, 2023 1 commit

ONNX export refactoring (#197) · 83911ddb

Neta Zmora authored May 09, 2023



* ONNX export refactoring

* Remove infer_ort (to enable more testing)
* Add BF16 ORT tests for Q/DQ ops and GELU.
  * Use FP32 i/o instead of BF16 (because ORT doesn't support BF16 i/o) and add casts from FP32 to BF16 (this is only for subgraph inputs and outputs).
  * We'll need to add more BF16 testing.
* GEMM:
  * Add cast after DQ to achieve better performance (matmul at sub-fp32 precisions).
  * Fold bias into Gemm operation (=> smaller graphs)
  * Wrap GEMM-GELU with FP32 (TE implements GELU in FP32)
* Enable tests for cross attention (test_export_multihead_attention)
* Reduce test thresholds for test_export_layernorm_mlp, test_export_layernorm_linear, test_export_layernorm
Signed-off-by: Neta Zmora <nzmora@nvidia.com>

* Loosen MHA export validation thresholds for FP16
Signed-off-by: Neta Zmora <nzmora@nvidia.com>

---------
Signed-off-by: Neta Zmora <nzmora@nvidia.com>

83911ddb

03 May, 2023 3 commits

Use NVIDIA Sans font in Transformer Engine documentation (#179) · a2c9c635

Przemyslaw Tredak authored May 03, 2023



* Use NVIDIA Sans font in Transformer Engine documentation
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Use NV font for the names in the API
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

---------
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

a2c9c635

test_onnx_export - bugfix (#192) · 49a161e4

galagam authored May 03, 2023


Signed-off-by: Gal Hubara Agam <ghubaraagam@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

49a161e4

DDP support for no-bias option [PyTorch] (#194) · 9277a0b5
Kirthi Shankar Sivamani authored May 02, 2023
```
DDP support for no-bias option
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
9277a0b5

02 May, 2023 3 commits

Move dbias from fused attention bwd's input list to its output list (#185) · 186cfaf3

cyanguwa authored May 02, 2023



* move dbias from input list to output list for bwd
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* split asserts into three for bias checks
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* Update transformer_engine/pytorch/cpp_extensions.py
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: cyanguwa <8636796+cyanguwa@users.noreply.github.com>

* fix asserts for bias checks
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

* another fix for asserts for bias checks
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>

---------
Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>
Signed-off-by: cyanguwa <8636796+cyanguwa@users.noreply.github.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

186cfaf3

Use separate streams for pushsend/recv kernels in UB p2p exchanges (#188) · 201279fa

Sangkug Lym authored May 02, 2023



* using different strems for pushsend and pushrecv
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* fix stream dependency
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* add wait from main_stream to memcpy stream
Signed-off-by: Sangkug Lym <slym@nvidia.com>

---------
Signed-off-by: Sangkug Lym <slym@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

201279fa

Get packaging module from setuptools (#190) · 25bb8647
Kirthi Shankar Sivamani authored May 01, 2023
```
Use only built-ins for setup
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
25bb8647

01 May, 2023 1 commit
- Handle nested fp8 autocasts (#187) · 7530b768
  Kirthi Shankar Sivamani authored May 01, 2023
```
Fixes in nested autocast
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
  7530b768
30 Apr, 2023 1 commit
- Remove use of distutils (#186) · 36e0ac56
  Kirthi Shankar Sivamani authored Apr 30, 2023
```
Remove distutils
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
  36e0ac56
29 Apr, 2023 2 commits

Fixes to test_onnx_export when saving input and output tensors (#173) · 1bc86400

galagam authored Apr 30, 2023



* Fixes to test_onnx_export when saving input and output tensors

- Allow saving i/o tensors when onnxruntime inference is skipped
- Support saving multiple outputs
Signed-off-by: Gal Hubara Agam <ghubaraagam@nvidia.com>

* fix
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Gal Hubara Agam <ghubaraagam@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

1bc86400

Correct cuDNN version requirement (#184) · 14c2b719

cyanguwa authored Apr 29, 2023



correct cuDNN version requirement
Signed-off-by: Charlene Yang <charleney@nvidia.com>

14c2b719

28 Apr, 2023 4 commits

Fix LayerNorm ONNX export (#174) · 2a1069f4

Neta Zmora authored Apr 29, 2023



* iFix LN ONNX export

When exporting LayerNorm make sure that the weights and bias
inputs have the same type as the LN input.
Also:
 * Add a regression test.
 * Add environment variable to override directory of generated test artifacts
Signed-off-by: Neta Zmora <nzmora@nvidia.com>

* fix envvar
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix linting
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Neta Zmora <nzmora@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

2a1069f4

Bugfix in Sequence Parallelism (#178) · 30212170

Kirthi Shankar Sivamani authored Apr 27, 2023



Fix bug in Sequence Parallelism
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

30212170

[JAX] Adjust Module Structure. (#169) · 0792ded4

Ming-Xu Huang authored Apr 28, 2023



* Adjust Module Structure.

1. Collect Flax related modules to a sub-folder, flax.
2. Add a function to unify scale_init for zero-centered-gamma LN.
Signed-off-by: Ming Huang <mingh@nvidia.com>

* Make changes be compatible to previous versions.
Signed-off-by: Ming Huang <mingh@nvidia.com>

* Adapt jax/examples to the new module structure.
Signed-off-by: Ming Huang <mingh@nvidia.com>

* Update jax/docs and Add deprecated warning.
Signed-off-by: Ming Huang <mingh@nvidia.com>

* Update README
Signed-off-by: Ming Huang <mingh@nvidia.com>

* Adding deprecated_wrapper
Signed-off-by: Ming Huang <mingh@nvidia.com>

* Adding deprecated warning to flax modules which imported via transformer_engine.jax
Signed-off-by: Ming Huang <mingh@nvidia.com>

* Fix CI errors and update docs.
Signed-off-by: Ming Huang <mingh@nvidia.com>

* Removing unnecessary deprecated warning in docs.
Signed-off-by: Ming Huang <mingh@nvidia.com>

* Implementing __iter__ to DeprecatedEnum.
Signed-off-by: Ming Huang <mingh@nvidia.com>

---------
Signed-off-by: Ming Huang <mingh@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

0792ded4

Re-add support for PyTorch version 1.x (#180) · 522fecc1
Kirthi Shankar Sivamani authored Apr 27, 2023
```
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
522fecc1

27 Apr, 2023 1 commit

Remove the nonexistent parameter from fused attention documentation (#181) · 1a868ff3

Przemyslaw Tredak authored Apr 27, 2023



* Remove the nonexistent parameter from fused attention documentation
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Remove the second instance
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

---------
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

1a868ff3

26 Apr, 2023 2 commits

Recursive submodule checkout (#176) · e5a69d92

Kirthi Shankar Sivamani authored Apr 26, 2023



* Recursively checkout submodules
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

e5a69d92

Faster split of QKV for FlashAttention (#166) · 8adb1b1d

Przemyslaw Tredak authored Apr 26, 2023



* Faster split of QKV for FlashAttention
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* CI fixes
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Fix
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* review comments
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Message with assert
Co-authored-by: Przemyslaw Tredak <ptredak@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Review comments
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* review
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix misalignment error
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* make clarifying comment and check strides
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

8adb1b1d

25 Apr, 2023 1 commit

Add guide to build from source (#172) · 4f3d6341

Kirthi Shankar Sivamani authored Apr 25, 2023



* Add guide to build from source
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

4f3d6341

22 Apr, 2023 2 commits

Remove used function ternary_pw_op_create (#167) · 522753f2

cyanguwa authored Apr 22, 2023



remove used function ternary_pw_op_create
Signed-off-by: Charlene Yang <charleney@nvidia.com>
Co-authored-by: Charlene Yang <charleney@nvidia.com>

522753f2

Cast BF16 input/output types for FP8 Q/DQ ONNX ops (#165) · 4ae9c1a0

asfiyab-nvidia authored Apr 21, 2023



add cast for BF16 input/output types for Q/DQ ONNX ops
Signed-off-by: Asfiya Baig <asfiyab@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

4ae9c1a0

21 Apr, 2023 4 commits

Remove userbuf docs (#164) · 68fc78dd
Kirthi Shankar Sivamani authored Apr 21, 2023
```
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
68fc78dd

zero inter-node communication buffer (#163) · 1a08ba19

Sangkug Lym authored Apr 21, 2023


Signed-off-by: Sangkug Lym <slym@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

1a08ba19

Add FP8 fused attention (#155) · 989a53a0

cyanguwa authored Apr 21, 2023



* Add FP8 fused attention to TE for PyTorch
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* add license for cudnn-frontend, modify installation requirements, and refactor some headers for aesthetics
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* add c api docs for fused attention
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* add exception for unsupported precision/sequence length combinations
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* fix installation requirement for non fused attn use cases
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* fix docs for fused-attn
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* prefix enums with NVTE_ and replace old MHA_Matrix with NVTE_QKV_Matrix
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* minor fixes based on PR comments
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* fix description for kvpacked fwd
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* fix description of Bias in C api
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* minor fixes for cudnn requirement and description for QKV tensors
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* fix QKV layout description and support matrix for C api
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* add asserts to cpp_extensions for qkv layout/bias type/attn mask type
Signed-off-by: Charlene Yang <charleney@nvidia.com>

* fix typo precision
Signed-off-by: Charlene Yang <charleney@nvidia.com>

---------
Signed-off-by: Charlene Yang <charleney@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Charlene Yang <charleney@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

989a53a0

Move userbuffer to PyTorch (#162) · c3407300

Kirthi Shankar Sivamani authored Apr 21, 2023



* Initial refactor; linker error
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix linking issue and make mpi conditional
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix TF/JAX build
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Use max SMs at the last RS chunk in pipelined overlap
Co-authored-by: Sangkug Lym <slym@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* lint
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Make userbuffers support opt-in

Decouple userbuffers from MPI. Refactor MPI handling in build system. Standardize names to "userbuffers".
Signed-off-by: Tim Moon <tmoon@nvidia.com>

* Lint
Signed-off-by: Tim Moon <tmoon@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: Sangkug Lym <slym@nvidia.com>
Co-authored-by: Tim Moon <tmoon@nvidia.com>

c3407300

20 Apr, 2023 2 commits

[JAX] Fix the wrong shape of bias when fusing GEMMs. (#152) · 4a1efe89

Ming-Xu Huang authored Apr 21, 2023



* Allow update_collections and update_fp8_metas to return both Dict and FrozenDict.
Signed-off-by: Ming Huang <mingh@nvidia.com>

* Fix the wrong shape issue of bias when fused QKV or KV.
Signed-off-by: Ming Huang <mingh@nvidia.com>

* Reuse tuplized features for bias creating.
Signed-off-by: Ming Huang <mingh@nvidia.com>

* Replace get_args to be more readable.
Signed-off-by: Ming Huang <mingh@nvidia.com>

---------
Signed-off-by: Ming Huang <mingh@nvidia.com>

4a1efe89

Clean up the installation instruction. (#159) · a41bf711

Frédéric Bastien authored Apr 20, 2023



* Clean up the installation instruction. We where telling to install the dev version in the README.
Signed-off-by: Frederic Bastien <fbastien@nvidia.com>

* Typos
Signed-off-by: Tim Moon <tmoon@nvidia.com>

---------
Signed-off-by: Frederic Bastien <fbastien@nvidia.com>
Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: Tim Moon <tmoon@nvidia.com>

a41bf711

19 Apr, 2023 1 commit

TP communication overlap with userbuffers (#147) · 18da4e88

Kirthi Shankar Sivamani authored Apr 19, 2023



* Port initial changes
Co-authored-by: Sangkug Lym <slym@nvidia.com>
Co-authored-by: Vasudevan Rengasamy <vrengasamy@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* readd FA include for PyTorch
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Re-enable sm_70 + cleanup
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* LICENSE, cleanup header
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* 5k -> 173 errors
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* license and fixes in userbuffers-host
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* next round fixes
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* final cpp cleanup
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* pylinting
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix from linting
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Turn off default async amax reduction (#148)
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* remove unused code path
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* cleanup Macros
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* fix conflict resolution bug
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* Fix gencode flags in setup (#145)

* Fix gencode flags based on cuda version
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* review suggestions
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* revert append_nvcc_threads change
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Change overlap config dict error message
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* simplify ub initialization
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* lint
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix sanity imports
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* cpplint
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix TensorFlow build
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix TE macros in public header
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix lint
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* More fixes
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* compiles with and w/o MPI
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fixes for python side annotations for conditional compile
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* link gdrAPI only when MPI found
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix comments for dummy var
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix linking
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Review comments
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* load MPI before TE
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Add Py side argument checks
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* remove unused code and catch silent failures
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix cpp tests
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix find_lib path for tests
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Sangkug Lym <slym@nvidia.com>
Co-authored-by: Sangkug Lym <slym@nvidia.com>
Co-authored-by: Vasudevan Rengasamy <vrengasamy@nvidia.com>

18da4e88

18 Apr, 2023 3 commits

Simplify dev installation guide. (#157) · 7bb2af35
Frédéric Bastien authored Apr 18, 2023
```
Signed-off-by: Frederic Bastien <fbastien@nvidia.com>
```
7bb2af35

Amax reduction interval (#154) · d3d7ed2c

Sangkug Lym authored Apr 18, 2023



* amax reduction internval
Signed-off-by: Sangkug Lym <slym@nvidia.com>

Skip TP-domain only AMAX reduction when TP-group is not initialized
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* Update transformer_engine/pytorch/fp8.py
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Sangkug Lym <slym@nvidia.com>

* check TP group initialized
Signed-off-by: Sangkug Lym <slym@nvidia.com>

fix
Signed-off-by: Sangkug Lym <slym@nvidia.com>

---------
Signed-off-by: Sangkug Lym <slym@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

d3d7ed2c

Tighten tolerances for graph capture test (#153) · b2b3fbe7

Tim Moon authored Apr 17, 2023


Signed-off-by: Tim Moon <tmoon@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

b2b3fbe7

17 Apr, 2023 3 commits

Changed version to 0.9.0dev · c0451dd1
Przemek Tredak authored Apr 17, 2023
```
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
```
c0451dd1

[PyTorch] Add tests for cuda graph capture (#144) · f126a04f

Kirthi Shankar Sivamani authored Apr 16, 2023



* Add tests for cuda graph capture
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* add sanity test and address reviews
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

f126a04f

Switch to upstream flash-attn (#151) · 7396c527

Kirthi Shankar Sivamani authored Apr 16, 2023



* use upstream flash-attn
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* get correct FA for linting
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

7396c527

15 Apr, 2023 1 commit

Fix gencode flags in setup (#145) · 7c9fb403

Kirthi Shankar Sivamani authored Apr 14, 2023



* Fix gencode flags based on cuda version
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* review suggestions
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* revert append_nvcc_threads change
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

7c9fb403

14 Apr, 2023 1 commit
- Turn off default async amax reduction (#148) · 9bc9e68d
  Kirthi Shankar Sivamani authored Apr 14, 2023
```
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
  9bc9e68d
13 Apr, 2023 3 commits

Fix model load exception when state resides on GPU (#140) · b921c0d1

Neta Zmora authored Apr 14, 2023



* Fix model load exception when state resides on GPU

- Whenever converting a torch.tensor to numpy, we need to first
migrate the tensor storage to the host CPU.

- Add a warning not to do contant-folding when exporting to ONNX.
This is due to a torch.onnx export bug.

- Refactor compare_outputs
Signed-off-by: Neta Zmora <nzmora@nvidia.com>

* Onnx export: Improve remark text
Signed-off-by: Neta Zmora <nzmora@nvidia.com>

---------
Signed-off-by: Neta Zmora <nzmora@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

b921c0d1

Zero-centered gamma (Layernorm1p) support for JAX (#139) · ec1030b5

zlsh80826 authored Apr 14, 2023



* Add zero_center_gamma/functional pass
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Add zero_centered_gamma for fp8_ln_mlp
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Add zero_centered_gamma to modules
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Add zero_centered_gamma to TransformerLayer
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Refactored code style for improved readability and consistency
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Docs enhancement for zero_centered_gamma
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Add escape for line break and remove some bad if conditions
Signed-off-by: Reese Wang <rewang@nvidia.com>

* Revise scale_init docs
Signed-off-by: Reese Wang <rewang@nvidia.com>

---------
Signed-off-by: Reese Wang <rewang@nvidia.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

ec1030b5

Remove the autocast_variable from TF-TE (#141) · 7f5e4cb9
Kaixi Hou authored Apr 13, 2023
```
Remove the autocast_variable
Signed-off-by: kaixih <kaixih@nvidia.com>
```
7f5e4cb9

11 Apr, 2023 1 commit

Set DCMAKE_PREFIX_PATH for TensorFlow build to build with pip pybind11 (#143) · ab44f050

Trevor Morris authored Apr 11, 2023



* Fix pybind11 install doc
Signed-off-by: Trevor Morris <tmorris@nvidia.com>

* Set CMAKE_PREFIX_PATH for TF to find pybind11
Signed-off-by: Trevor Morris <tmorris@nvidia.com>

* Update test builds to use pip install of apt.
Signed-off-by: Trevor Morris <tmorris@nvidia.com>

---------
Signed-off-by: Trevor Morris <tmorris@nvidia.com>

ab44f050