Merge pull request #3706 from ollama/mxyng/mem

account for all non-repeating layers

Merge pull request #3706 from ollama/mxyng/mem
account for all non-repeating layers
71548d98 · Michael Yang · GitHub · 9755cf91 · a8b9b930 · 71548d98
Unverified Commit 71548d98 authored Apr 17, 2024 by Michael Yang Committed by GitHub Apr 17, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 50 additions and 11 deletions

llm/ggml.go llm/ggml.go +2 -1

llm/server.go llm/server.go +48 -10

No files found.
--- a/llm/ggml.go
+++ b/llm/ggml.go
@@ -164,7 +164,8 @@ func (ts Tensors) Layers() map[string]Layer {
 	for _, t := range ts {
 		parts := strings.Split(t.Name, ".")
 		if parts[0] == "blk" {
-			parts = parts[1:]
+			// join first and second part, e.g. blk.%d
+			parts = append([]string{fmt.Sprintf("%s.%s", parts[0], parts[1])}, parts[2:]...)
 		}
 		if _, ok := layers[parts[0]]; !ok {

--- a/llm/server.go
+++ b/llm/server.go
@@ -97,7 +97,7 @@ func NewLlamaServer(model string, adapters, projectors []string, opts api.Option
 	var layerCount int
 	layers := ggml.Tensors().Layers()
 	for i := 0; i < int(ggml.KV().BlockCount()); i++ {
-		memoryLayer := layers[fmt.Sprintf("%d", i)].size()
+		memoryLayer := layers[fmt.Sprintf("blk.%d", i)].size()
 		// KV is proportional to the number of layers
 		memoryLayer += kv / ggml.KV().BlockCount()
@@ -109,7 +109,14 @@ func NewLlamaServer(model string, adapters, projectors []string, opts api.Option
 		}
 	}
-	memoryLayerOutput := layers["output"].size()
+	var memoryLayerOutput uint64
+	for k, v := range layers {
+		if !strings.HasPrefix(k, "blk.") {
+			slog.Info("aaa", "name", k, "size", format.HumanBytes2(v.size()))
+			memoryLayerOutput += v.size()
+		}
+	}
 	memoryRequiredTotal += memoryLayerOutput
 	if info.Library == "metal" && memoryRequiredTotal > info.TotalMemory {
@@ -124,16 +131,47 @@ func NewLlamaServer(model string, adapters, projectors []string, opts api.Option
 		opts.NumGPU = layerCount
 	}
+	memoryWeights := memoryRequiredTotal - memoryMinimum - graphFullOffload - kv
 	slog.Info(
 		"offload to gpu",
-		"reallayers", opts.NumGPU,
+		slog.Group(
-		"layers", layerCount,
+			"layers",
-		"required", format.HumanBytes2(memoryRequiredTotal),
+			// actual number of layers offloaded
-		"used", format.HumanBytes2(memoryRequiredPartial),
+			"real", opts.NumGPU,
-		"available", format.HumanBytes2(memoryAvailable),
+			// estimated number of layers that can be offloaded
-		"kv", format.HumanBytes2(kv),
+			"estimate", layerCount,
-		"fulloffload", format.HumanBytes2(graphFullOffload),
+		),
-		"partialoffload", format.HumanBytes2(graphPartialOffload),
+		slog.Group(
+			"memory",
+			// memory available for offloading
+			"available", format.HumanBytes2(memoryAvailable),
+			slog.Group(
+				"required",
+				// memory required for full offloading
+				"full", format.HumanBytes2(memoryRequiredTotal),
+				// memory required to offload layers.estimate layers
+				"partial", format.HumanBytes2(memoryRequiredPartial),
+				// memory of KV cache
+				"kv", format.HumanBytes2(kv),
+			),
+			slog.Group(
+				"weights",
+				// memory of the weights
+				"total", format.HumanBytes2(memoryWeights),
+				// memory of repeating layers
+				"repeating", format.HumanBytes2(memoryWeights-memoryLayerOutput),
+				// memory of non-repeating layers
+				"nonrepeating", format.HumanBytes2(memoryLayerOutput),
+			),
+			slog.Group(
+				"graph",
+				// memory of graph when fully offloaded
+				"full", format.HumanBytes2(graphFullOffload),
+				// memory of graph when not fully offloaded
+				"partial", format.HumanBytes2(graphPartialOffload),
+			),
+		),
 	)
 	if len(adapters) > 1 {