# Text query
HIP_VISIBLE_DEVICES=0,1 python video_audio_demo.py --model_path vita/VITA_ckpt --image_path asset/vita_log2.png --model_type mixtral-8x7b --conv_mode mixtral_two --question "请描述这张图片。"
# Audio query
HIP_VISIBLE_DEVICES=0,1 python video_audio_demo.py --model_path vita/VITA_ckpt --image_path asset/vita_log2.png --model_type mixtral-8x7b --conv_mode mixtral_two --audio_path asset/q1.wav
# Noisy audio query
HIP_VISIBLE_DEVICES=0,1 python video_audio_demo.py --model_path vita/VITA_ckpt --image_path asset/vita_log2.png --model_type mixtral-8x7b --conv_mode mixtral_two --audio_path asset/q2.wav