cuda: enable flash attention

ggml added an option to disable flash attention so explicitly enable it

cuda: enable flash attention
ggml added an option to disable flash attention so explicitly enable it
b42aba40 · Michael Yang · 25885e53 · b42aba40
Commit b42aba40 authored Feb 28, 2025 by Michael Yang
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 0 deletions

CMakeLists.txt CMakeLists.txt +1 -0

No files found.
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -23,6 +23,7 @@ set(GGML_SCHED_MAX_COPIES 4)
 set(GGML_LLAMAFILE ON)
 set(GGML_CUDA_PEER_MAX_BATCH_SIZE 128)
 set(GGML_CUDA_GRAPHS ON)
+set(GGML_CUDA_FA ON)

 if((CMAKE_OSX_ARCHITECTURES AND NOT CMAKE_OSX_ARCHITECTURES MATCHES "arm64")
    OR (NOT CMAKE_OSX_ARCHITECTURES AND NOT CMAKE_SYSTEM_PROCESSOR MATCHES "arm|aarch64|ARM64|ARMv[0-9]+"))