transformer_engine/common/common.h · 7b18f235465636d54032f676b4c227b2b7f62e3b · OpenDAS / TransformerEngine

Fused Attention Support 64-bit Ragged Offsets for Large THD Tensors (#1230) · 7b18f235

Michael Goldfarb authored Oct 22, 2024



* Use 64-bit offsets for cuDNN 9.5+
* Align workspace tensors to 16B.
* Fix bug where std::accumulate overflowed on large tensor shapes.
* Only support 64-bit offsets on arbitrary sequence length fp16 backend.
Signed-off-by: Michael Goldfarb <mgoldfarb@nvidia.com>

7b18f235

common.h 11.5 KB

Replace common.h