# Text query HIP_VISIBLE_DEVICES=0,1 python video_audio_demo.py --model_path vita/VITA_ckpt --image_path asset/vita_log2.png --model_type mixtral-8x7b --conv_mode mixtral_two --question "请描述这张图片。" # Audio query HIP_VISIBLE_DEVICES=0,1 python video_audio_demo.py --model_path vita/VITA_ckpt --image_path asset/vita_log2.png --model_type mixtral-8x7b --conv_mode mixtral_two --audio_path asset/q1.wav # Noisy audio query HIP_VISIBLE_DEVICES=0,1 python video_audio_demo.py --model_path vita/VITA_ckpt --image_path asset/vita_log2.png --model_type mixtral-8x7b --conv_mode mixtral_two --audio_path asset/q2.wav