Commits · 2b05e121a469301db0d3e9d6299f8c723ee2b6c1 · OpenDAS / TransformerEngine

29 May, 2025 1 commit

Avoid memory allocations and deallocations when creating NVTETensor (#1813) · 4292653c

Przemyslaw Tredak authored May 29, 2025



* Changed the Tensor allocation strategy
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Fixes
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Disable debug flag
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Fix the double free error
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Fix
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Fixed pyTorch recipe extension
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Fix
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Fix
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Hide TensorAllocator and fix the usage in LayerNorm
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Cleaning
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Fix
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

* Fix permutation
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>

---------
Signed-off-by: Przemek Tredak <ptredak@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

4292653c

26 May, 2025 1 commit

[DCU] Use ocp fp8(same as nvidia) · 9666d263

wenjh authored May 26, 2025



Use ocp fp8.
Workaround: test_cast_float8blockwise.cu link wrong std::max
Signed-off-by: wenjh <wenjh@sugon.com>

9666d263

22 May, 2025 1 commit
- [ROCM6.3] Fix build on rocm-6.3 · b27e513d
  wenjh authored May 22, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  b27e513d
29 Apr, 2025 1 commit
- [PytorchUnitTest] Fix errors while running tests · 86f2e9a9
  wenjh authored Apr 29, 2025
```
Signed-off-by: wenjh <wenjh@sugon.com>
```
  86f2e9a9
22 Apr, 2025 1 commit

[C][PyTorch] Move cuda kernels from pytorch extensions to core part 1 (#1702) · e5a673f6

Kirthi Shankar Sivamani authored Apr 22, 2025



* Move radix sort to core
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix; change fused_attn to include C header
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Review comments
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fix args
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

e5a673f6

14 Apr, 2025 1 commit

[MoE] Support new fp8 recipes for permute_fusion (#1649) · c8e7cc02

Autumn1998 authored Apr 14, 2025



* add support for new recipe on permute_fusion, rm fp unpermute
Signed-off-by: tongliu <tongliu@nvidia.com>

* fix lint
Signed-off-by: Xin Yao <xiny@nvidia.com>

* remove fp8 from index map
Signed-off-by: Xin Yao <xiny@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* skip unsupported tests
Signed-off-by: Xin Yao <xiny@nvidia.com>

---------
Signed-off-by: tongliu <tongliu@nvidia.com>
Signed-off-by: Xin Yao <xiny@nvidia.com>
Co-authored-by: tongliu <tongliu@nvidia.com>
Co-authored-by: Xin Yao <xiny@nvidia.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>

c8e7cc02

27 Mar, 2025 1 commit
- [DCU] compile pass · ab122dac
  yuguo authored Mar 27, 2025
  
  ab122dac
20 Mar, 2025 1 commit
- [DCU] Preliminary adaptation · c520cba3
  yuguo authored Mar 20, 2025
  
  c520cba3
02 Jan, 2025 1 commit
- Update copyright to include 2025 (#1388) · c9ea6be9
  Kirthi Shankar Sivamani authored Jan 02, 2025
```
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
  c9ea6be9
22 Aug, 2024 1 commit

[MoE][Common/PyTorch] Add permutation (#936) · a3353744

NVJiangShao authored Aug 23, 2024



* Add permutation functions

* Add permutation ops

* Remove the dependency on cutlass

* Move permutation.py out of module dir

* Rewrite the unit test and enable skipping if FP8 is unavailable

* Rename exposed C++ API and reorder its parameters + take NVTETensor as inputs

* Use Float8Tensor for FP8 input

* Move dtype to ctx

---------
Signed-off-by: Jiang Shao <jiangs@nvidia.com>
Co-authored-by: Qi Zhang <qizhang@nvidia.com>
Co-authored-by: Phuong Nguyen <36155692+phu0ngng@users.noreply.github.com>

a3353744