transformer_engine/pytorch/utils.py · cb5013bd90673b520dcc911b07a390b095c82a06 · OpenDAS / TransformerEngine

Optimize CUDA Graph memory, FP8 wrapper, and uneven PP support (#1234) · 64891899

buptzyb authored Jul 11, 2025



* Reuse cudagraph input and output tensor memory
Signed-off-by: Robin Zhang <robinz@nvidia.com>

* Wrap _make_graphed_callables with fp8
Signed-off-by: Robin Zhang <robinz@nvidia.com>

* add uneven pp support
Signed-off-by: Robin Zhang <robinz@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Remove no grad tensor reuse
Signed-off-by: Robin Zhang <robinz@nvidia.com>

* simplify TensorWrapper
Signed-off-by: Robin Zhang <robinz@nvidia.com>

* Format and add comments
Signed-off-by: Robin Zhang <robinz@nvidia.com>

* Revert FP8 wrapper
Signed-off-by: Robin Zhang <robinz@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Apply comment tweaks from code review
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* Solve lint
Signed-off-by: Robin Zhang <robinz@nvidia.com>

* remove unused params
Signed-off-by: Robin Zhang <robinz@nvidia.com>

* [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci



* update comment
Signed-off-by: Robin Zhang <robinz@nvidia.com>

---------
Signed-off-by: Robin Zhang <robinz@nvidia.com>
Signed-off-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

64891899

utils.py 24.1 KB

Replace utils.py