[Bugfix] Fix new Llama3.1 GGUF model loading (#7269)

8334c39f · Isotr0py · GitHub · e9045767 · 8334c39f
Unverified Commit 8334c39f authored Aug 09, 2024 by Isotr0py Committed by GitHub Aug 08, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 16 additions and 14 deletions

vllm/model_executor/model_loader/weight_utils.py vllm/model_executor/model_loader/weight_utils.py +16 -14

No files found.
--- a/vllm/model_executor/model_loader/weight_utils.py
+++ b/vllm/model_executor/model_loader/weight_utils.py
@@ -435,23 +435,25 @@ def gguf_quant_weights_iterator(
    reader = gguf.GGUFReader(gguf_file)
    for tensor in reader.tensors:
-        weight_type = tensor.tensor_type
+        if tensor.name in gguf_to_hf_name_map:
-        name = gguf_to_hf_name_map[tensor.name]
+            weight_type = tensor.tensor_type
+            name = gguf_to_hf_name_map[tensor.name]
-        if weight_type.name != "F32":
+            if weight_type.name != "F32":
-            weight_type_name = name.replace("weight", "qweight_type")
+                weight_type_name = name.replace("weight", "qweight_type")
-            weight_type = torch.tensor(weight_type)
+                weight_type = torch.tensor(weight_type)
-            yield weight_type_name, weight_type
+                yield weight_type_name, weight_type
    for tensor in reader.tensors:
-        weight = tensor.data
+        if tensor.name in gguf_to_hf_name_map:
-        weight_type = tensor.tensor_type
+            weight = tensor.data
-        name = gguf_to_hf_name_map[tensor.name]
+            weight_type = tensor.tensor_type
+            name = gguf_to_hf_name_map[tensor.name]
-        if weight_type.name != "F32":
-            name = name.replace("weight", "qweight")
+            if weight_type.name != "F32":
-        param = torch.tensor(weight)
+                name = name.replace("weight", "qweight")
-        yield name, param
+            param = torch.tensor(weight)
+            yield name, param
 def kv_cache_scales_loader(