Commits · fcffb7c8dbbd498c3dc0d828b117a0829e1567bd · kecinstone / 2024pra-vllm

"vllm/model_executor/models/yi.py" did not exist on "c9d5b6d4a8b3f51ff6c9eee7eb52bb5149d89b6a"

03 Jan, 2024 1 commit
- Use NCCL instead of ray for control-plane communication to remove serialization overhead (#2221) · fd4ea8ef
  Zhuohan Li authored Jan 04, 2024
  
  fd4ea8ef
17 Dec, 2023 1 commit

Optimize model execution with CUDA graph (#1926) · 37ca5581

Woosuk Kwon authored Dec 16, 2023


Co-authored-by: Chen Shen <scv119@gmail.com>
Co-authored-by: Antoni Baum <antoni.baum@protonmail.com>

37ca5581

15 Dec, 2023 1 commit
- Add GPTQ support (#916) · 0fbfc4b8
  CHU Tianxiang authored Dec 15, 2023
  
  0fbfc4b8
30 Nov, 2023 1 commit
- Refactor Worker & InputMetadata (#1843) · 27feead2
  Woosuk Kwon authored Nov 29, 2023
  
  27feead2
28 Nov, 2023 1 commit
- Fix OPT param names (#1819) · b9438904
  Woosuk Kwon authored Nov 28, 2023
  
  b9438904
24 Nov, 2023 1 commit
- Fix model docstrings (#1764) · 7c600440
  Woosuk Kwon authored Nov 23, 2023
  
  7c600440
21 Nov, 2023 1 commit
- [BugFix] Fix TP support for AWQ (#1731) · cf35d8f3
  Woosuk Kwon authored Nov 20, 2023
  
  cf35d8f3
20 Nov, 2023 1 commit
- Migrate linter from `pylint` to `ruff` (#1665) · 5ffc0d13
  Simon Mo authored Nov 20, 2023
  
  5ffc0d13
19 Nov, 2023 1 commit
- Add AWQ support for all models (#1714) · 8d17774f
  Woosuk Kwon authored Nov 18, 2023
  
  8d17774f
16 Nov, 2023 1 commit

TP/quantization/weight loading refactor part 2 - Refactor quantized linear... · 7076fa1c

Zhuohan Li authored Nov 15, 2023

TP/quantization/weight loading refactor part 2 - Refactor quantized linear logic and extend quantization support to all models (#1622)

Refactor the tensor parallelism, quantization, and weight-loading codes.

Summary of the new features enabled by this PR:
- **All models** are able to be quantized with AWQ and SqueezeLLM, and [soon GPTQ](https://github.com/vllm-project/vllm/pull/1580).
- Model loading code became much simpler.
- Support model parallelism for all MQA/GQA models when the number of key/value heads is smaller than the tensor parallel size.

7076fa1c

02 Oct, 2023 1 commit
- TP/quantization/weight loading refactor part 1 - Simplify parallel linear logic (#1181) · ba0bfd40
  Zhuohan Li authored Oct 02, 2023
  
  ba0bfd40
13 Sep, 2023 1 commit

Add Model Revision Support (#1014) · ab019eea

Jasmond L authored Sep 14, 2023


Co-authored-by: Jasmond Loh <Jasmond.Loh@hotmail.com>
Co-authored-by: Zhuohan Li <zhuohan123@gmail.com>

ab019eea

07 Sep, 2023 1 commit
- Enable safetensors loading for all models (#974) · c957c741
  Zhuohan Li authored Sep 07, 2023
  
  c957c741
05 Sep, 2023 1 commit
- Align vLLM's beam search implementation with HF generate (#857) · 002800f0
  Zhuohan Li authored Sep 04, 2023
  
  002800f0
03 Jul, 2023 1 commit
- [Quality] Add code formatter and linter (#326) · d6fa1be3
  Zhuohan Li authored Jul 03, 2023
  
  d6fa1be3
17 Jun, 2023 1 commit
- Change the name to vLLM (#150) · 0b98ba15
  Woosuk Kwon authored Jun 17, 2023
  
  0b98ba15
25 May, 2023 1 commit
- Add activation registry (#126) · 4a151dd4
  Woosuk Kwon authored May 25, 2023
  
  4a151dd4
24 May, 2023 1 commit
- Add contributing guideline and mypy config (#122) · a283ec2e
  Woosuk Kwon authored May 23, 2023
  
  a283ec2e
19 May, 2023 1 commit
- Use runtime profiling to replace manual memory analyzers (#81) · f756799b
  Zhuohan Li authored May 19, 2023
  
  f756799b
15 May, 2023 3 commits
- Add docstrings to some modules and classes (#100) · b322fd16
  Woosuk Kwon authored May 14, 2023
  
  b322fd16
- Add copyright headers to source files adapted from FT (#104) · 667ba399
  Woosuk Kwon authored May 14, 2023
  
  667ba399
- Add copyright headers for HF models (#103) · 707ec647
  Woosuk Kwon authored May 14, 2023
  
  707ec647
09 May, 2023 1 commit
- Refactor system architecture (#82) · 7c041ab5
  Woosuk Kwon authored May 09, 2023
  
  7c041ab5
05 May, 2023 1 commit
- Replace FlashAttention with xformers (#70) · c9d5b6d4
  Woosuk Kwon authored May 05, 2023
  
  c9d5b6d4
04 May, 2023 1 commit
- Add support for GPT-2 (#60) · e548c148
  Woosuk Kwon authored May 04, 2023
  
  e548c148
03 May, 2023 1 commit
- New weight loader without np copy (#52) · 27f1410d
  Zhuohan Li authored May 03, 2023
  
  27f1410d
28 Apr, 2023 1 commit
- Add support for GPT-NeoX (Pythia) (#50) · a96d63c2
  Woosuk Kwon authored Apr 28, 2023
  
  a96d63c2
09 Apr, 2023 1 commit
- Add an option to use dummy model weights (#33) · ee88a7e5
  Woosuk Kwon authored Apr 08, 2023
  
  ee88a7e5
02 Apr, 2023 2 commits
- Optimize data movement (#20) · 897cb2ae
  Woosuk Kwon authored Apr 02, 2023
  
  897cb2ae
- Merge QKV into one linear layer (#15) · 1f01a18d
  Zhuohan Li authored Apr 02, 2023
  
  1f01a18d
30 Mar, 2023 2 commits
- Implement custom kernel for LLaMA rotary embedding (#14) · 88c0268a
  Woosuk Kwon authored Mar 30, 2023
  
  88c0268a
- Implement LLaMA (#9) · 80a2f812
  Woosuk Kwon authored Mar 29, 2023
```
Co-authored-by: Zhuohan Li <zhuohan123@gmail.com>
```
  80a2f812
21 Mar, 2023 1 commit
- Support tensor parallel (#2) · 2f49f155
  Zhuohan Li authored Mar 22, 2023
  
  2f49f155
10 Mar, 2023 1 commit
- Support beam search & parallel generation (#7) · 1a7eb7da
  Woosuk Kwon authored Mar 10, 2023
  
  1a7eb7da
25 Feb, 2023 1 commit
- Fix a bug in tying OPT embeddings (#1) · cbf8779a
  Woosuk Kwon authored Feb 24, 2023
  
  cbf8779a
23 Feb, 2023 3 commits
- Fix sampler · de0fabbc
  Woosuk Kwon authored Feb 23, 2023
  
  de0fabbc
- Fix typo · 86f9eb6d
  Woosuk Kwon authored Feb 23, 2023
  
  86f9eb6d
- Add unoptimized OPT Attention · d4bc1a4d
  Woosuk Kwon authored Feb 23, 2023
  
  d4bc1a4d
22 Feb, 2023 1 commit
- Move worker/models -> models · 709a6917
  Woosuk Kwon authored Feb 22, 2023
  
  709a6917
09 Feb, 2023 1 commit
- Add OPT · 39161c98
  Woosuk Kwon authored Feb 09, 2023
  
  39161c98