vllm/engine/arg_utils.py · 094f716bf2cdc213f2b812dbb489fbf6f4a4423c · kecinstone / 2024pra-vllm · GitLab

Find file Blame History Permalink

fix RAM OOM when load large models in tensor parallel mode. (#1395) · 4bb6b671
boydfd authored Nov 21, 2023
```
Co-authored-by: ran_lin <rlin@thoughtworks.com>
```
4bb6b671

arg_utils.py 10.7 KB