InstructBlipVideo: Update docstring (#31886)

* update docs * one more change

InstructBlipVideo: Update docstring (#31886)
* update docs * one more change
d625294d · Raushan Turganbay · GitHub · c54af4c7 · d625294d · d625294d
Unverified Commit d625294d authored Jul 11, 2024 by Raushan Turganbay Committed by GitHub Jul 11, 2024
2 changed files
--- a/src/transformers/models/instructblipvideo/diff_instructblipvideo.py
+++ b/src/transformers/models/instructblipvideo/diff_instructblipvideo.py
@@ -158,7 +158,8 @@ class InstructBlipVideoForConditionalGeneration(InstructBlipForConditionalGenera
        >>> from transformers import InstructBlipVideoProcessor, InstructBlipVideoForConditionalGeneration
        >>> import torch
        >>> from huggingface_hub import hf_hub_download
-        >>> from av
+        >>> import av
+        >>> import numpy as np
        >>> def read_video_pyav(container, indices):
        ...     '''
@@ -180,20 +181,21 @@ class InstructBlipVideoForConditionalGeneration(InstructBlipForConditionalGenera
        ...             frames.append(frame)
        ...     return np.stack([x.to_ndarray(format="rgb24") for x in frames])
-        >>> model = InstructBlipVideoProcessor.from_pretrained("Salesforce/instructblip-vicuna-7b", device_map="auto")
+        >>> model = InstructBlipVideoForConditionalGeneration.from_pretrained("Salesforce/instructblip-vicuna-7b", device_map="auto")
-        >>> processor = InstructBlipVideoForConditionalGeneration.from_pretrained("Salesforce/instructblip-vicuna-7b")
+        >>> processor = InstructBlipVideoProcessor.from_pretrained("Salesforce/instructblip-vicuna-7b")
        >>> file_path = hf_hub_download(
-                repo_id="nielsr/video-demo", filename="eating_spaghetti.mp4", repo_type="dataset"
+        ...       repo_id="nielsr/video-demo", filename="eating_spaghetti.mp4", repo_type="dataset"
-            )
+        ... )
-        >>> container = av.open(video_path)
+        >>> container = av.open(file_path)
        >>> # sample uniformly 4 frames from the videWhy is this video funny?o
        >>> total_frames = container.streams.video[0].frames
        >>> indices = np.arange(0, total_frames, total_frames / 4).astype(int)
        >>> clip = read_video_pyav(container, indices)
        >>> prompt = "What is happening in the video?"
-        >>> inputs = processor(videos=clip, text=prompt, return_tensors="pt").to(device)
+        >>> inputs = processor(text=prompt, images=clip, return_tensors="pt").to(model.device)
        >>> outputs = model.generate(
        ...     **inputs,

--- a/src/transformers/models/instructblipvideo/modeling_instructblipvideo.py
+++ b/src/transformers/models/instructblipvideo/modeling_instructblipvideo.py
@@ -1393,7 +1393,8 @@ class InstructBlipVideoForConditionalGeneration(InstructBlipVideoPreTrainedModel
        >>> from transformers import InstructBlipVideoProcessor, InstructBlipVideoForConditionalGeneration
        >>> import torch
        >>> from huggingface_hub import hf_hub_download
-        >>> from av
+        >>> import av
+        >>> import numpy as np
        >>> def read_video_pyav(container, indices):
        ...     '''
@@ -1415,20 +1416,21 @@ class InstructBlipVideoForConditionalGeneration(InstructBlipVideoPreTrainedModel
        ...             frames.append(frame)
        ...     return np.stack([x.to_ndarray(format="rgb24") for x in frames])
-        >>> model = InstructBlipVideoProcessor.from_pretrained("Salesforce/instructblip-vicuna-7b", device_map="auto")
+        >>> model = InstructBlipVideoForConditionalGeneration.from_pretrained("Salesforce/instructblip-vicuna-7b", device_map="auto")
-        >>> processor = InstructBlipVideoForConditionalGeneration.from_pretrained("Salesforce/instructblip-vicuna-7b")
+        >>> processor = InstructBlipVideoProcessor.from_pretrained("Salesforce/instructblip-vicuna-7b")
        >>> file_path = hf_hub_download(
-                repo_id="nielsr/video-demo", filename="eating_spaghetti.mp4", repo_type="dataset"
+        ...       repo_id="nielsr/video-demo", filename="eating_spaghetti.mp4", repo_type="dataset"
-            )
+        ... )
-        >>> container = av.open(video_path)
+        >>> container = av.open(file_path)
        >>> # sample uniformly 4 frames from the videWhy is this video funny?o
        >>> total_frames = container.streams.video[0].frames
        >>> indices = np.arange(0, total_frames, total_frames / 4).astype(int)
        >>> clip = read_video_pyav(container, indices)
        >>> prompt = "What is happening in the video?"
-        >>> inputs = processor(videos=clip, text=prompt, return_tensors="pt").to(device)
+        >>> inputs = processor(text=prompt, images=clip, return_tensors="pt").to(model.device)
        >>> outputs = model.generate(
        ...     **inputs,