fix: fix local loading for .bin models (#1419)

564f2a3b · OlivierDehaene · GitHub · 3f9b3f45 · 564f2a3b · 564f2a3b
Unverified Commit 564f2a3b authored Jan 09, 2024 by OlivierDehaene Committed by GitHub Jan 09, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 4 deletions

server/text_generation_server/cli.py server/text_generation_server/cli.py +1 -1

server/text_generation_server/utils/peft.py server/text_generation_server/utils/peft.py +2 -3

No files found.
--- a/server/text_generation_server/cli.py
+++ b/server/text_generation_server/cli.py
@@ -198,7 +198,7 @@ def download_weights(
            if not extension == ".safetensors" or not auto_convert:
                raise e
-    else:
+    elif (Path(model_id) / "adapter_config.json").exists():
        # Try to load as a local PEFT model
        try:
            utils.download_and_unload_peft(

--- a/server/text_generation_server/utils/peft.py
+++ b/server/text_generation_server/utils/peft.py
@@ -10,8 +10,7 @@ from peft import AutoPeftModelForCausalLM, AutoPeftModelForSeq2SeqLM
 def download_and_unload_peft(model_id, revision, trust_remote_code):
    torch_dtype = torch.float16
-    logger.info("Peft model detected.")
+    logger.info("Trying to load a Peft model. It might take a while without feedback")
-    logger.info("Loading the model it might take a while without feedback")
    try:
        model = AutoPeftModelForCausalLM.from_pretrained(
            model_id,
@@ -28,7 +27,7 @@ def download_and_unload_peft(model_id, revision, trust_remote_code):
            trust_remote_code=trust_remote_code,
            low_cpu_mem_usage=True,
        )
-    logger.info(f"Loaded.")
+    logger.info("Peft model detected.")
    logger.info(f"Merging the lora weights.")
    base_model_id = model.peft_config["default"].base_model_name_or_path