[Experimental] Add multi-LoRA support (#1804)

Co-authored-by: Chen Shen <scv119@gmail.com> Co-authored-by: Shreyas Krishnaswamy <shrekris@anyscale.com> Co-authored-by: Avnish Narayan <avnish@anyscale.com>

[Experimental] Add multi-LoRA support (#1804)
Co-authored-by: Chen Shen <scv119@gmail.com> Co-authored-by: Shreyas Krishnaswamy <shrekris@anyscale.com> Co-authored-by: Avnish Narayan <avnish@anyscale.com>
9b945daa · Antoni Baum · GitHub · 9c1352eb · 9b945daa · 9b945daa
Unverified Commit 9b945daa authored Jan 24, 2024 by Antoni Baum Committed by GitHub Jan 23, 2024
20 changed files
--- a/tests/lora/test_worker.py
+++ b/tests/lora/test_worker.py
+import os
+import random
+import tempfile
+from unittest.mock import patch
+from vllm.lora.models import LoRAMapping
+from vllm.lora.request import LoRARequest
+from vllm.config import ModelConfig, ParallelConfig, SchedulerConfig, LoRAConfig
+from vllm.worker.worker import Worker
+@patch.dict(os.environ, {"RANK": "0"})
+def test_worker_apply_lora(sql_lora_files):
+    worker = Worker(
+        model_config=ModelConfig(
+            "meta-llama/Llama-2-7b-hf",
+            "meta-llama/Llama-2-7b-hf",
+            tokenizer_mode="auto",
+            trust_remote_code=False,
+            download_dir=None,
+            load_format="dummy",
+            seed=0,
+            dtype="float16",
+            revision=None,
+        ),
+        parallel_config=ParallelConfig(1, 1, False),
+        scheduler_config=SchedulerConfig(32, 32, 32, 256),
+        local_rank=0,
+        rank=0,
+        lora_config=LoRAConfig(max_lora_rank=8, max_cpu_loras=32,
+                               max_loras=32),
+        distributed_init_method=f"file://{tempfile.mkstemp()[1]}",
+    )
+    worker.init_model()
+    worker.load_model()
+    worker.model_runner.set_active_loras([], LoRAMapping([], []))
+    assert worker.list_loras() == set()
+    n_loras = 32
+    lora_requests = [
+        LoRARequest(str(i + 1), i + 1, sql_lora_files) for i in range(n_loras)
+    ]
+    worker.model_runner.set_active_loras(lora_requests, LoRAMapping([], []))
+    assert worker.list_loras() == {
+        lora_request.lora_int_id
+        for lora_request in lora_requests
+    }
+    for i in range(32):
+        random.seed(i)
+        iter_lora_requests = random.choices(lora_requests,
+                                            k=random.randint(1, n_loras))
+        random.shuffle(iter_lora_requests)
+        iter_lora_requests = iter_lora_requests[:-random.randint(0, n_loras)]
+        worker.model_runner.set_active_loras(iter_lora_requests,
+                                             LoRAMapping([], []))
+        assert worker.list_loras().issuperset(
+            {lora_request.lora_int_id
+             for lora_request in iter_lora_requests})
--- a/tests/lora/utils.py
+++ b/tests/lora/utils.py
--- a/tests/samplers/test_sampler.py
+++ b/tests/samplers/test_sampler.py
@@ -19,10 +19,11 @@ class MockLogitsSampler(Sampler):
        self.fake_logits = fake_logits
    def forward(self, *args, **kwargs):
-        with patch("vllm.model_executor.layers.sampler._prune_hidden_states",
+        with patch(
-                   lambda x, y: x), patch(
+                "vllm.model_executor.layers.sampler._prune_hidden_states",
-                       "vllm.model_executor.layers.sampler._get_logits",
+                lambda x, y: x), patch(
-                       lambda *args, **kwargs: self.fake_logits):
+                    "vllm.model_executor.layers.sampler.Sampler._get_logits",
+                    lambda *args, **kwargs: self.fake_logits):
            return super().forward(*args, **kwargs)
@@ -38,7 +39,7 @@ def _prepare_test(
                             device=input_tensor.device,
                             dtype=input_tensor.dtype)
    sampler = MockLogitsSampler(32000, fake_logits)
-    model_runner = ModelRunner(None, None, None)
+    model_runner = ModelRunner(None, None, None, None)
    return input_tensor, fake_logits, sampler, model_runner
@@ -266,7 +267,7 @@ def test_sampler_top_k_top_p(seed: int):
                               device=input_tensor.device,
                               dtype=input_tensor.dtype)
    sampler = MockLogitsSampler(32000, fake_logits)
-    model_runner = ModelRunner(None, None, None)
+    model_runner = ModelRunner(None, None, None, None)
    generation_model = GenerationMixin()
    generation_config = GenerationConfig(top_k=top_k,

--- a/tests/worker/spec_decode/utils.py
+++ b/tests/worker/spec_decode/utils.py
@@ -83,8 +83,8 @@ def create_worker(cls: type,
        enforce_eager=enforce_eager,
    )
-    (model_config, cache_config, parallel_config,
+    (model_config, cache_config, parallel_config, scheduler_config,
-     scheduler_config) = engine_args.create_engine_configs()
+     _) = engine_args.create_engine_configs()
    distributed_init_method = get_distributed_init_method(
        get_ip(), get_open_port())

--- a/tests/worker/test_model_runner.py
+++ b/tests/worker/test_model_runner.py
@@ -6,7 +6,7 @@ from vllm.worker.model_runner import ModelRunner
 def test_prepare_prompt():
-    model_runner = ModelRunner(None, None, None)
+    model_runner = ModelRunner(None, None, None, None)
    model_runner.set_block_size(16)
    batch_size = random.randint(1, 256)
@@ -33,7 +33,7 @@ def test_prepare_prompt():
        expected_selected_token_indices.append(selected_token_start_idx +
                                               prompt_len - 1)
        selected_token_start_idx += max_seq_len
-    input_tokens, input_positions, _, return_prompt_lens, _ = (
+    input_tokens, input_positions, _, return_prompt_lens, _, _, _, _ = (
        model_runner._prepare_prompt(seq_group_metadata_list))
    assert return_prompt_lens == prompt_lens
    sampling_metadata = model_runner._prepare_sample(seq_group_metadata_list,

--- a/vllm/config.py
+++ b/vllm/config.py
--- a/vllm/core/scheduler.py
+++ b/vllm/core/scheduler.py
--- a/vllm/engine/arg_utils.py
+++ b/vllm/engine/arg_utils.py
--- a/vllm/engine/async_llm_engine.py
+++ b/vllm/engine/async_llm_engine.py
--- a/vllm/engine/llm_engine.py
+++ b/vllm/engine/llm_engine.py
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
--- a/vllm/lora/__init__.py
+++ b/vllm/lora/__init__.py
--- a/vllm/lora/layers.py
+++ b/vllm/lora/layers.py
--- a/vllm/lora/lora.py
+++ b/vllm/lora/lora.py
--- a/vllm/lora/models.py
+++ b/vllm/lora/models.py
--- a/vllm/lora/punica.py
+++ b/vllm/lora/punica.py
--- a/vllm/lora/request.py
+++ b/vllm/lora/request.py
--- a/vllm/lora/utils.py
+++ b/vllm/lora/utils.py
--- a/vllm/lora/worker_manager.py
+++ b/vllm/lora/worker_manager.py
--- a/vllm/model_executor/layers/sampler.py
+++ b/vllm/model_executor/layers/sampler.py