fix offline inference chat response prompt (#32088)

Signed-off-by: Andy Xie <andy.xning@gmail.com>

fix offline inference chat response prompt (#32088)
Signed-off-by: Andy Xie <andy.xning@gmail.com>
d74132ca · Ning Xie · GitHub · a34abc49 · d74132ca · d74132ca
Unverified Commit d74132ca authored Jan 11, 2026 by Ning Xie Committed by GitHub Jan 11, 2026
Showing with 14 additions and 9 deletions

examples/offline_inference/context_extension.py examples/offline_inference/context_extension.py +9 -7

examples/offline_inference/spec_decode.py examples/offline_inference/spec_decode.py +5 -2

No files found.
--- a/examples/offline_inference/context_extension.py
+++ b/examples/offline_inference/context_extension.py
@@ -9,7 +9,7 @@ Usage:
    python examples/offline_inference/context_extension.py
 """
-from vllm import LLM, SamplingParams
+from vllm import LLM, RequestOutput, SamplingParams
 def create_llm():
@@ -45,13 +45,15 @@ def run_llm_chat(llm):
        {"role": "assistant", "content": "Hello! How can I assist you today?"},
    ]
    outputs = llm.chat(conversation, sampling_params, use_tqdm=False)
-    return outputs
+    return outputs, [
+        conversation,
+    ]
-def print_outputs(outputs):
+def print_outputs(outputs: list[RequestOutput], conversations: list):
    print("\nGenerated Outputs:\n" + "-" * 80)
-    for output in outputs:
+    for i, output in enumerate(outputs):
-        prompt = output.prompt
+        prompt = conversations[i]
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}\n")
        print(f"Generated text: {generated_text!r}")
@@ -60,8 +62,8 @@ def print_outputs(outputs):
 def main():
    llm = create_llm()
-    outputs = run_llm_chat(llm)
+    outputs, conversations = run_llm_chat(llm)
-    print_outputs(outputs)
+    print_outputs(outputs, conversations)
 if __name__ == "__main__":

--- a/examples/offline_inference/spec_decode.py
+++ b/examples/offline_inference/spec_decode.py
@@ -152,9 +152,12 @@ def main(args):
    # print the generated text
    if args.print_output:
-        for output in outputs:
+        for i, output in enumerate(outputs):
            print("-" * 50)
-            print(f"prompt: {output.prompt}")
+            if not args.custom_mm_prompts:
+                print(f"prompt: {prompts[i].prompt}")
+            else:
+                print(f"prompt: {prompts[i]}")
            print(f"generated text: {output.outputs[0].text}")
            print("-" * 50)