llm: always add bos token to prompt (#4941)

* fix embedding by adding fixes from llama.cpp upstream * remove assert --------- Co-authored-by: Jesper Ek <deadbeef84@gmail.com>

llm: always add bos token to prompt (#4941)
* fix embedding by adding fixes from llama.cpp upstream * remove assert --------- Co-authored-by: Jesper Ek <deadbeef84@gmail.com>
34f14279 · Jeffrey Morgan · GitHub · 46a7f1e7 · 34f14279
Unverified Commit 34f14279 authored Jun 08, 2024 by Jeffrey Morgan Committed by GitHub Jun 08, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 2 deletions

llm/ext_server/server.cpp llm/ext_server/server.cpp +2 -2

No files found.
--- a/llm/ext_server/server.cpp
+++ b/llm/ext_server/server.cpp
@@ -835,7 +835,7 @@ struct llama_server_context
        system_tokens.clear();

        if (!system_prompt.empty()) {
-            system_tokens = ::llama_tokenize(ctx, system_prompt, add_bos_token);
+            system_tokens = ::llama_tokenize(ctx, system_prompt, true);

            llama_batch_clear(batch);

@@ -1656,7 +1656,7 @@ struct llama_server_context
                    slot.t_start_process_prompt = ggml_time_us();
                    slot.t_start_genereration = 0;

-                    prompt_tokens = tokenize(slot.prompt, system_prompt.empty() && add_bos_token);  // add BOS if there isn't system prompt
+                    prompt_tokens = tokenize(slot.prompt, system_prompt.empty());  // add BOS if there isn't system prompt

                    slot.n_prompt_tokens = prompt_tokens.size();