Commits · c5e87b11e95fbebd6d79bb3f05b1f8dce4fe5f7f · gaoqiong / flash-attention

13 Aug, 2023 1 commit
- Bump to v2.0.5 · c5e87b11
  Tri Dao authored Aug 13, 2023
  
  c5e87b11
10 Aug, 2023 1 commit
- [MLP] Change the check for out_features being None · 364a5b4a
  Tri Dao authored Aug 10, 2023
  
  364a5b4a
01 Aug, 2023 3 commits
- Bump to v2.0.4 · d30f2e1c
  Tri Dao authored Aug 01, 2023
  
  d30f2e1c
- Bump to v2.0.3 · a4e5d1ed
  Tri Dao authored Jul 31, 2023
  
  a4e5d1ed
- [Docs] Fix docstring about Q nheads being divisible by KV nheads · 8f4cd4c1
  Tri Dao authored Jul 31, 2023
  
  8f4cd4c1
29 Jul, 2023 1 commit
- [GPT] Implement parallel LLaMa · 184b992d
  Tri Dao authored Jul 28, 2023
  
  184b992d
28 Jul, 2023 3 commits
- [Docs] Fix mention of MQA/GQA in qkvpacked functions · 840f7925
  Tri Dao authored Jul 28, 2023
  
  840f7925
- [Benchmark] Add script to benchmark FlashAttention · 60499abc
  Tri Dao authored Jul 28, 2023
  
  60499abc
- Request for v2.0.2 (#388) · 32a953f4
  Kirthi Shankar Sivamani authored Jul 28, 2023
```
* Bump version to 2.0.2
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Update version in Dockerfile
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
  32a953f4
27 Jul, 2023 1 commit

Kirthi Shankar Sivamani authored Jul 27, 2023



* Add RNG state to kernel launch params
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Save seed and offset for backward
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Single thread write to global mem
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* compute_dq_dk_dv_1colblock get seed and offset from launch params
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* compute_dq_dk_dv_1rowblock get seed and offset from launch params
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Change forward c++ APIs to save RNG state for backward
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Change backward c++ APIs to set RNG state for bprop launcher
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Bug fixes
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Python side API changes
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Bug fix; only save seeds instead of full offset
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Account for 3D grid size
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

a03f6f8e

26 Jul, 2023 2 commits
- [MLP] Edit ParallelGatedMlp · 4c98d0b4
  Tri Dao authored Jul 26, 2023
  
  4c98d0b4
- Implement ParallelGatedMlp (#251) · 8ee62efc
  Haodong Lyu authored Jul 27, 2023
  
  8ee62efc
23 Jul, 2023 6 commits
- Bump to v2.0.1 · b2520724
  Tri Dao authored Jul 23, 2023
  
  b2520724
- [GPT] Implement Falcon · d38357dd
  Tri Dao authored Jul 23, 2023
  
  d38357dd
- Allow rotary embeddings for Bert (#363) · 684196b8
  Kiarash Jamali authored Jul 23, 2023
  
  684196b8
- [MHA] Implement MQA/GQA · 425dbcb6
  Tri Dao authored Jul 23, 2023
  
  425dbcb6
- [Rotary] Don't store inv_freq in state_dict · ec9f74ab
  Tri Dao authored Jul 22, 2023
  
  ec9f74ab
- [MLP] Add ParallelMLP · 75e334d4
  Tri Dao authored Jul 22, 2023
  
  75e334d4
22 Jul, 2023 1 commit
- [GPT] Enable FlashAttention for GPT-J · b3177dfa
  Tri Dao authored Jul 21, 2023
  
  b3177dfa
21 Jul, 2023 1 commit
- [Block] Re-enable DropPath · 6fc1e07d
  Tri Dao authored Jul 21, 2023
  
  6fc1e07d
18 Jul, 2023 1 commit
- Make sure dout is contiguous · b4cc152e
  Tri Dao authored Jul 17, 2023
  
  b4cc152e
17 Jul, 2023 2 commits
- FlashAttention-2 release · 4f285b35
  Tri Dao authored Jul 17, 2023
  
  4f285b35
- Bump to v1.0.9 · 6d48e14a
  Tri Dao authored Jul 17, 2023
  
  6d48e14a
08 Jul, 2023 1 commit

rotary: update cos/sin cache when switching from inference mode · 70ab266a

Volodymyr Kyrylov authored Jul 08, 2023

This resolves RuntimeErrors after running evaluation in inference mode:

```
  File "/home/proger/.local/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
    return forward_call(*args, **kwargs)
  File "/home/proger/.local/lib/python3.10/site-packages/flash_attn/modules/mha.py", line 492, in forward
    qkv = self.rotary_emb(qkv)
  File "/home/proger/.local/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
    return forward_call(*args, **kwargs)
  File "/home/proger/.local/lib/python3.10/site-packages/flash_attn/layers/rotary.py", line 229, in forward
    return apply_rotary_emb_qkv_(
  File "/home/proger/.local/lib/python3.10/site-packages/torch/autograd/function.py", line 506, in apply
    return super().apply(*args, **kwargs)  # type: ignore[misc]
RuntimeError: Inference tensors cannot be saved for backward. To work around you can make a clone to get a normal tensor and use it in autograd.
```

70ab266a

04 Jul, 2023 1 commit
- [LayerNorm] Make sure memory addresses are aligned to 16 bytes · d2f4324f
  Tri Dao authored Jul 04, 2023
  
  d2f4324f
03 Jul, 2023 2 commits
- [Doc] Change total -> total_q · e8a0b4ac
  Tri Dao authored Jul 02, 2023
  
  e8a0b4ac
- Bump to v1.0.8 · 9610114c
  Tri Dao authored Jul 02, 2023
  
  9610114c
02 Jul, 2023 1 commit
- [Rotary] Make sure frequency calculation is in fp32 · 62e98144
  Tri Dao authored Jul 02, 2023
  
  62e98144
02 Jun, 2023 1 commit
- Fix a bug · 8e44c0ee
  ljss authored Jun 02, 2023
  
  8e44c0ee
30 May, 2023 2 commits
- Bump version to 1.0.7 · 85b51d61
  Tri Dao authored May 30, 2023
  
  85b51d61
- [Gen] Add rotary base as an argument to FT attention kernel · 48bc6eac
  Tri Dao authored May 30, 2023
  
  48bc6eac
27 May, 2023 1 commit
- bump to v1.0.6 · dd9c3a1f
  Kirthi Shankar Sivamani authored May 26, 2023
```
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
```
  dd9c3a1f
19 May, 2023 1 commit
- Allow adding an optional local version to the package version · 31f78a98
  Max H. Gerlach authored May 19, 2023
  
  31f78a98
06 May, 2023 2 commits
- [BugFix] cannot unpack non-iterable NoneType object · 69f5f7d0
  Federico Berto authored May 07, 2023
  
  69f5f7d0
- [BugFix] cannot unpack non-iterable NoneType object · 3889ba16
  Federico Berto authored May 07, 2023
  
  3889ba16
05 May, 2023 1 commit
- [LLaMa] Fix last norm layer to use RMSNorm instead of LayerNorm · a9a4b4e4
  Tri Dao authored May 04, 2023
  
  a9a4b4e4
21 Apr, 2023 4 commits
- [Gen] Minor tweak to allocate_inference_cache · fcab93b4
  Tri Dao authored Apr 21, 2023
  
  fcab93b4
- [Gen] Move allocate_inference_cache to within the model · ba2fe7f3
  Tri Dao authored Apr 20, 2023
  
  ba2fe7f3
- [GPT] Add option to only return the logit for the last token · 3da42d24
  Tri Dao authored Apr 20, 2023
  
  3da42d24
- [Gen] Fix FT kernel smem size, CG when batch size changed · 311d6606
  Tri Dao authored Apr 20, 2023
  
  311d6606