Add Fast Multihead Attention to APEX Contrib (#697)

* Adding C++ Multihead Attention implementation to contrib. * Add reference test that at least works for forward. * Remove CublasLt support from multihead attention. * Add new Python version of self attention. * Update python model of MHA with backward pass. * Fixed Output Linear connection in MHA. * Clean up compiles and add documentation to PySelfAttention. * Add Encdec Python version of multihead attention. Cleanup files. * Tests for self and encdec multihead attention. * Add reference pytorch implementation of attention with norm and add. * Add cutlass branch definition. * Add cutlass download to compile. * Add norm/add tests. * Add biases to pytorch python versions. * Add tests and fix issues with python version of attention masking. * Create README.md * Update README.md * Update README.md * Update perf test parameters. * Update README.md * Update README.md * Update README.md * Add files via upload * Update README.md * Update README.md * Update README.md * Fix matmul1 output tensor size. Fix tests that missed issue.

Add Fast Multihead Attention to APEX Contrib (#697)
* Adding C++ Multihead Attention implementation to contrib. * Add reference test that at least works for forward. * Remove CublasLt support from multihead attention. * Add new Python version of self attention. * Update python model of MHA with backward pass. * Fixed Output Linear connection in MHA. * Clean up compiles and add documentation to PySelfAttention. * Add Encdec Python version of multihead attention. Cleanup files. * Tests for self and encdec multihead attention. * Add reference pytorch implementation of attention with norm and add. * Add cutlass branch definition. * Add cutlass download to compile. * Add norm/add tests. * Add biases to pytorch python versions. * Add tests and fix issues with python version of attention masking. * Create README.md * Update README.md * Update README.md * Update perf test parameters. * Update README.md * Update README.md * Update README.md * Add files via upload * Update README.md * Update README.md * Update README.md * Fix matmul1 output tensor size. Fix tests that missed issue.
3f94528e · Kevin Stephano · GitHub · 494f8ab3 · 3f94528e · 3f94528e
Unverified Commit 3f94528e authored Feb 06, 2020 by Kevin Stephano Committed by GitHub Feb 06, 2020
12 changed files
--- a/apex/contrib/multihead_attn/encdec_multihead_attn_func.py
+++ b/apex/contrib/multihead_attn/encdec_multihead_attn_func.py
--- a/apex/contrib/multihead_attn/fast_encdec_multihead_attn_func.py
+++ b/apex/contrib/multihead_attn/fast_encdec_multihead_attn_func.py
--- a/apex/contrib/multihead_attn/fast_encdec_multihead_attn_norm_add_func.py
+++ b/apex/contrib/multihead_attn/fast_encdec_multihead_attn_norm_add_func.py
--- a/apex/contrib/multihead_attn/fast_self_multihead_attn_func.py
+++ b/apex/contrib/multihead_attn/fast_self_multihead_attn_func.py
--- a/apex/contrib/multihead_attn/fast_self_multihead_attn_norm_add_func.py
+++ b/apex/contrib/multihead_attn/fast_self_multihead_attn_norm_add_func.py
--- a/apex/contrib/multihead_attn/self_multihead_attn.py
+++ b/apex/contrib/multihead_attn/self_multihead_attn.py
--- a/apex/contrib/multihead_attn/self_multihead_attn_func.py
+++ b/apex/contrib/multihead_attn/self_multihead_attn_func.py
--- a/apex/contrib/test/multihead_attn/test_encdec_multihead_attn.py
+++ b/apex/contrib/test/multihead_attn/test_encdec_multihead_attn.py
--- a/apex/contrib/test/multihead_attn/test_encdec_multihead_attn_norm_add.py
+++ b/apex/contrib/test/multihead_attn/test_encdec_multihead_attn_norm_add.py
--- a/apex/contrib/test/multihead_attn/test_self_multihead_attn.py
+++ b/apex/contrib/test/multihead_attn/test_self_multihead_attn.py
--- a/apex/contrib/test/multihead_attn/test_self_multihead_attn_norm_add.py
+++ b/apex/contrib/test/multihead_attn/test_self_multihead_attn_norm_add.py
--- a/setup.py
+++ b/setup.py