vllm/spec_decode/spec_decode_worker.py · 2ce5d6688bae64e467640b05e73af2888e93afcf · OpenDAS / vllm_cscc · GitLab

Find file Blame History Permalink

[Speculative Decoding] Support draft model on different tensor-parallel size... · 2ce5d668
Woo-Yeon Lee authored Jun 25, 2024
```
 [Speculative Decoding] Support draft model on different tensor-parallel size than target model (#5414)
```
2ce5d668

spec_decode_worker.py 28.6 KB