fix: remove dependency on latest transformers impl (#3635)

424848d2 · Mick · GitHub · e5ce395a · 424848d2 · 424848d2
Unverified Commit 424848d2 authored Feb 19, 2025 by Mick Committed by GitHub Feb 19, 2025
Showing with 5 additions and 3 deletions

python/sglang/srt/configs/qwen2_5_vl_config.py python/sglang/srt/configs/qwen2_5_vl_config.py +5 -2

python/sglang/srt/models/qwen2_vl.py python/sglang/srt/models/qwen2_vl.py +0 -1

No files found.
--- a/python/sglang/srt/configs/qwen2_5_vl_config.py
+++ b/python/sglang/srt/configs/qwen2_5_vl_config.py
@@ -48,13 +48,16 @@ from transformers.image_utils import (
    validate_preprocess_arguments,
 )
 from transformers.modeling_rope_utils import rope_config_validation
-from transformers.models.mllama.image_processing_mllama import is_valid_list_of_images
 from transformers.models.qwen2_vl.image_processing_qwen2_vl import smart_resize
 from transformers.processing_utils import ProcessingKwargs, Unpack, VideosKwargs
 from transformers.tokenization_utils_base import PreTokenizedInput, TextInput
 from transformers.utils.constants import OPENAI_CLIP_MEAN, OPENAI_CLIP_STD
+def is_valid_list_of_images(images: List):
+    return images and all(is_valid_image(image) for image in images)
 class Qwen2_5_VLVisionConfig(PretrainedConfig):
    model_type = "qwen2_5_vl"
    base_config_key = "vision_config"
@@ -999,5 +1002,5 @@ class Qwen2_5_VLImageProcessor(BaseImageProcessor):
        return BatchFeature(data=data, tensor_type=return_tensors)
-AutoImageProcessor.register(Qwen2_5_VLConfig, Qwen2_5_VLImageProcessor)
+AutoImageProcessor.register(Qwen2_5_VLConfig, None, Qwen2_5_VLImageProcessor, None)
 AutoProcessor.register(Qwen2_5_VLConfig, Qwen2_5_VLProcessor)
--- a/python/sglang/srt/models/qwen2_vl.py
+++ b/python/sglang/srt/models/qwen2_vl.py
@@ -559,7 +559,6 @@ class Qwen2VLForConditionalGeneration(nn.Module):
                    ]
                    image_embeds_offset += num_image_tokens
-        input_ids = None
        hidden_states = self.model(
            input_ids=input_ids,
            positions=positions,