[`Docs`] More clarifications on BT + FA (#25823)

dc0c1029 · Younes Belkada · GitHub · c9bae84e · dc0c1029
Unverified Commit dc0c1029 authored Aug 29, 2023 by Younes Belkada Committed by GitHub Aug 29, 2023
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 2 deletions

docs/source/en/perf_infer_gpu_one.md docs/source/en/perf_infer_gpu_one.md +4 -2

No files found.
--- a/docs/source/en/perf_infer_gpu_one.md
+++ b/docs/source/en/perf_infer_gpu_one.md
@@ -74,7 +74,7 @@ import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer

 tokenizer = AutoTokenizer.from_pretrained("facebook/opt-350m")
-model = AutoModelForCausalLM.from_pretrained("facebook/opt-350m").to("cuda")
+model = AutoModelForCausalLM.from_pretrained("facebook/opt-350m", torch_dtype=torch.float16).to("cuda")
 # convert the model to BetterTransformer
 model.to_bettertransformer()

@@ -99,6 +99,8 @@ try using the PyTorch nightly version, which may have a broader coverage for Fla
 pip3 install -U --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu118
 ```

+Or make sure your model is correctly casted in float16 or bfloat16
+

 Have a look at [this detailed blogpost](https://pytorch.org/blog/out-of-the-box-acceleration/) to read more about what is possible to do with `BetterTransformer` + SDPA API.

@@ -270,4 +272,4 @@ with torch.backends.cuda.sdp_kernel(enable_flash=True, enable_math=False, enable
    outputs = model.generate(**inputs)

 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
-```
\ No newline at end of file
+```