Commits · bd3a9d8e856cb7e2122f1a09d2fb0f44b7649dad · OpenDAS / text-generation-inference

08 Jun, 2023 1 commit

feat(server): Rework model loading (#344) · abd58ff8

Nicolas Patry authored Jun 08, 2023

# What does this PR do?

Reworked the loading logic. Idea is to use cleaner loading code:

- Remove need for `no_init_weights`
- Remove all weird `bnb_linear` and `load_weights` and
`post_load_weights`.

New code layout:

- New class `Weights` in charge of handling loading the weights from
multiple files into appropiate tensors (potentially sharded)
- TP layers now are "shells", they contain the code to know what kind of
sharding we need + eventual `all_reduce`. They do not inherit from
linear, but they contain some kind of Linear instead
- the contained linear can be either FastLinear, BnbLinear or GPTq
Linear next.
- All modeling code is explictly made for sharding, process group is
just no-ops for non sharded code (removes a lot of test cases)

![Screenshot from 2023-05-19
23-19-59](https://github.com/huggingface/text-generation-inference/assets/204321/9a802654-74a3-488c-87a8-073743a6143f

)

---------
Co-authored-by: Ubuntu <ubuntu@ip-172-31-41-161.taildb5d.ts.net>
Co-authored-by: Ubuntu <ubuntu@ip-172-31-41-161.ec2.internal>
Co-authored-by: OlivierDehaene <olivier@huggingface.co>
Co-authored-by: OlivierDehaene <23298448+OlivierDehaene@users.noreply.github.com>

abd58ff8

12 May, 2023 3 commits
- fix(docker): use ubuntu20.04 · 22c4fd07
  OlivierDehaene authored May 12, 2023
  
  22c4fd07
- fix(docker): remove quantize default · 119f7e06
  OlivierDehaene authored May 12, 2023
  
  119f7e06
- chore(docker): use nvidia base image (#318) · 8a8f4341
  OlivierDehaene authored May 12, 2023
  
  8a8f4341
10 May, 2023 2 commits
- fix(docker): remove CUDA_VERSION · 35ab6cfc
  OlivierDehaene authored May 10, 2023
  
  35ab6cfc
- fix(docker): remove nvidia require cuda env (#310) · 15854044
  OlivierDehaene authored May 10, 2023
  
  15854044
09 May, 2023 4 commits
- fix(docker): fix nvidia env vars (#305) · 49cffad1
  OlivierDehaene authored May 09, 2023
  
  49cffad1
- fix(docker): fix docker build (#299) · bc5c0723
  OlivierDehaene authored May 09, 2023
  
  bc5c0723
- feat(docker): add benchmarking tool to docker image (#298) · e2502822
  OlivierDehaene authored May 09, 2023
  
  e2502822
- fix(dockerfile): fix nvidia env vars (#297) · e9b01b34
  OlivierDehaene authored May 09, 2023
```
Fixes #291
```
  e9b01b34
02 May, 2023 1 commit
- chore(github): add templates (#264) · 411b0d4e
  Nicolas Patry authored May 02, 2023
  
  411b0d4e
27 Apr, 2023 1 commit
- feat(docker): add nvidia env vars (#255) · 593a5634
  OlivierDehaene authored Apr 27, 2023
  
  593a5634
24 Apr, 2023 1 commit
- chore(server): update huggingface-hub (#227) · 98a3e0d1
  OlivierDehaene authored Apr 24, 2023
  
  98a3e0d1
21 Apr, 2023 1 commit
- misc: update to rust 1.69 (#221) · 97df0c7b
  OlivierDehaene authored Apr 21, 2023
  
  97df0c7b
19 Apr, 2023 3 commits
- feat(router): add git sha to info route (#208) · b6ee0ec7
  OlivierDehaene authored Apr 19, 2023
  
  b6ee0ec7
- fix(docker): remove unused dependencies (#205) · 6837b2eb
  OlivierDehaene authored Apr 19, 2023
  
  6837b2eb
- fix(server): fix hf_transfer issue with private repos (#203) · 5d27f525
  OlivierDehaene authored Apr 19, 2023
  
  5d27f525
16 Apr, 2023 1 commit
- fix(docker): fix docker image dependencies (#187) · 7a1ba585
  OlivierDehaene authored Apr 17, 2023
  
  7a1ba585
14 Apr, 2023 4 commits
- fix(docker): revert dockerfile changes (#186) · 379c5c4d
  OlivierDehaene authored Apr 14, 2023
  
  379c5c4d
- fix(docker): fix image (#185) · f9047562
  OlivierDehaene authored Apr 14, 2023
  
  f9047562
- fix(docker): fix docker image (#184) · 1bb39463
  OlivierDehaene authored Apr 14, 2023
  
  1bb39463
- fea(dockerfile): better layer caching (#159) · 53ee09c0
  OlivierDehaene authored Apr 14, 2023
  
  53ee09c0
09 Apr, 2023 1 commit
- feat(docker): improve flash_attention caching (#160) · 1883d8ec
  OlivierDehaene authored Apr 09, 2023
  
  1883d8ec
29 Mar, 2023 1 commit

feat: aws sagemaker compatible image (#147) · d503e8f0

OlivierDehaene authored Mar 29, 2023



The only difference is that now it pushes to
registry.internal.huggingface.tech/api-inference/community/text-generation-inference/sagemaker:...
instead of
registry.internal.huggingface.tech/api-inference/community/text-generation-inference:sagemaker-...

---------
Co-authored-by: Philipp Schmid <32632186+philschmid@users.noreply.github.com>

d503e8f0

24 Mar, 2023 1 commit
- feat(server): flash neoX (#133) · 05e9a796
  OlivierDehaene authored Mar 24, 2023
  
  05e9a796
03 Mar, 2023 1 commit
- feat(ci): improve CI speed (#94) · e3ded361
  OlivierDehaene authored Mar 03, 2023
  
  e3ded361
18 Feb, 2023 1 commit
- feat(server): enable hf-transfer (#76) · 17bc841b
  OlivierDehaene authored Feb 18, 2023
  
  17bc841b
13 Feb, 2023 1 commit
- feat: add distributed tracing (#62) · 9af45414
  OlivierDehaene authored Feb 13, 2023
  
  9af45414
08 Feb, 2023 1 commit
- fix(docker): increase shm size (#60) · 1ad3250b
  OlivierDehaene authored Feb 08, 2023
  
  1ad3250b
03 Feb, 2023 1 commit
- feat(router): refactor API and add openAPI schemas (#53) · 20c3c594
  OlivierDehaene authored Feb 03, 2023
  
  20c3c594
24 Jan, 2023 1 commit
- fix(dockerfile): fix docker build (#32) · 13e7044a
  OlivierDehaene authored Jan 24, 2023
  
  13e7044a
23 Jan, 2023 2 commits
- fix(docker): fix api-inference deployment (#30) · ab2ad91d
  OlivierDehaene authored Jan 23, 2023
  
  ab2ad91d
- feat(docker): Make the image compatible with api-inference (#29) · f9d0ec37
  OlivierDehaene authored Jan 23, 2023
  
  f9d0ec37
14 Nov, 2022 1 commit
- feat(rust): Update to 1.65 · 6c781025
  OlivierDehaene authored Nov 14, 2022
  
  6c781025
08 Nov, 2022 1 commit
- fix(server): Fix Transformers fork version · fa43fb71
  OlivierDehaene authored Nov 08, 2022
  
  fa43fb71
07 Nov, 2022 1 commit
- feat(server): Improved doc · 4236e41b
  OlivierDehaene authored Nov 07, 2022
  
  4236e41b
02 Nov, 2022 1 commit
- feat: Use json formatter by default in docker image · b3b7ea0d
  OlivierDehaene authored Nov 02, 2022
  
  b3b7ea0d
28 Oct, 2022 1 commit
- feat(server): Support all AutoModelForCausalLM on a best effort basis · 3cf6368c
  OlivierDehaene authored Oct 28, 2022
  
  3cf6368c
27 Oct, 2022 1 commit
- feat(server): Support bitsandbytes · 09674e6d
  OlivierDehaene authored Oct 27, 2022
  
  09674e6d
22 Oct, 2022 1 commit

feat(server): Use safetensors · c8ce9b25

Nicolas Patry authored Oct 22, 2022


Co-authored-by: OlivierDehaene <23298448+OlivierDehaene@users.noreply.github.com>

c8ce9b25