Update minicpm-v_version.py

d0778a76 · wanglch · dad37c3a · d0778a76
Commit d0778a76 authored Apr 15, 2025 by wanglch
Hide whitespace changes
Inline Side-by-side

Showing with 20 additions and 22 deletions

minicpm-v_version.py minicpm-v_version.py +20 -22

No files found.
--- a/minicpm-v_version.py
+++ b/minicpm-v_version.py
-
+# test.py
 import torch
 from PIL import Image
 from modelscope import AutoModel, AutoTokenizer

-# load omni model default, the default init_vision/init_audio/init_tts is True
-# if load vision-only model, please set init_audio=False and init_tts=False
-# if load audio-only model, please set init_vision=False
-model = AutoModel.from_pretrained(
-    'openbmb/MiniCPM-V-2_6',
-    trust_remote_code=True,
-    attn_implementation='sdpa', # sdpa or flash_attention_2
-    torch_dtype=torch.bfloat16,
-    init_vision=True,
-    init_audio=True,
-    init_tts=True
-)
-
-
+model = AutoModel.from_pretrained('OpenBMB/MiniCPM-V-2_6', trust_remote_code=True,
+    attn_implementation='sdpa', torch_dtype=torch.bfloat16) # sdpa or flash_attention_2, no eager
 model = model.eval().cuda()
-tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-V-2_6', trust_remote_code=True)
-
-# In addition to vision-only mode, tts processor and vocos also needs to be initialized
-model.init_tts()
+tokenizer = AutoTokenizer.from_pretrained('OpenBMB/MiniCPM-V-2_6', trust_remote_code=True)

-# test.py
-image = Image.open('../images/XXXX.jpg').convert('RGB')
-question = 'ocr this image?'
+image = Image.open('xx.jpg').convert('RGB')
+question = 'What is in the image?'
 msgs = [{'role': 'user', 'content': [image, question]}]

 res = model.chat(
@@ -35,3 +19,17 @@ res = model.chat(
 )
 print(res)

+## if you want to use streaming, please make sure sampling=True and stream=True
+## the model.chat will return a generator
+res = model.chat(
+    image=None,
+    msgs=msgs,
+    tokenizer=tokenizer,
+    sampling=True,
+    stream=True
+)
+
+generated_text = ""
+for new_text in res:
+    generated_text += new_text
+    print(new_text, flush=True, end='')