# Qwen-Image_hf ## 论文 `Qwen-Image Technical Report` - https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf ## 模型结构 Qwen-Image，一个20B的MMDiT模型。这是通义千问系列中首个图像生成基础模型，其在复杂文本渲染和精确图像编辑方面取得了显著进展。其主要特性包括： - 卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色，支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文，均能实现高保真输出。 - 一致性的图像编辑能力: 通过增强的多任务训练范式，Qwen-Image 在编辑过程中能出色地保持编辑的一致性。 - 强大的跨基准性能表现: 在多个公开基准测试中的评估表明，Qwen-Image 在各类生成与编辑任务中均获得SOTA，是一个强大的图像生成基础模型。

## 算法原理 Qwen-Image的核心是扩散模型，并创新地使用了一个强大的多模态大语言模型(Qwen2.5-VL)来深度理解复杂的图文指令，从而在生成高质量图像的同时，实现了业界领先的、尤其是在中英文上的精准文字渲染能力。

## 环境配置 ### 硬件需求 DCU型号：K100_AI,节点数量：1台,卡数：2张。 ### Docker（方法一） ```bash docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.8.5-ubuntu22.04-dtk25.04-rc7-das1.5-py3.10-20250612-fixpy-rocblas0611-rc2 docker run -it --shm-size 200g --network=host --name {docker_name} --privileged --device=/dev/kfd --device=/dev/dri --device=/dev/mkfd --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -u root -v /path/your_code_data/:/path/your_code_data/ -v /opt/hyhal/:/opt/hyhal/:ro {imageID} bash cd /your_code_path/qwen-image_hf pip install -r requirements.txt # 需要安装torch2.5.1或以上版本 wget https://download.sourcefind.cn:65024/directlink/4/pytorch/DAS1.6/torch-2.5.1+das.opt1.dtk25041-cp310-cp310-manylinux_2_28_x86_64.whl pip install torch-2.5.1+das.opt1.dtk25041-cp310-cp310-manylinux_2_28_x86_64.whl ``` ### Dockerfile（方法二）此处提供dockerfile的使用方法 ```bash cd docker docker build --no-cache -t qwen-image:latest . docker run -it --shm-size 200g --network=host --name {docker_name} --privileged --device=/dev/kfd --device=/dev/dri --device=/dev/mkfd --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -u root -v /path/your_code_data/:/path/your_code_data/ -v /opt/hyhal/:/opt/hyhal/:ro {imageID} bash cd /your_code_path/qwen-image_hf pip install -r requirements.txt # 需要安装torch2.5.1或以上版本 wget https://download.sourcefind.cn:65024/directlink/4/pytorch/DAS1.6/torch-2.5.1+das.opt1.dtk25041-cp310-cp310-manylinux_2_28_x86_64.whl pip install torch-2.5.1+das.opt1.dtk25041-cp310-cp310-manylinux_2_28_x86_64.whl ``` ### Anaconda（方法三）关于本项目DCU显卡所需的特殊深度学习库可从[光合](https://developer.sourcefind.cn/tool/)开发者社区下载安装。 ```bash DTK: 25.04 python: 3.10 torch: 2.5.1+das.opt2.dtk25041 ``` `Tips：以上dtk驱动、pytorch等DCU相关工具版本需要严格一一对应` 其它非深度学习库安装方式如下： ```bash pip install -r requirements.txt ``` ## 数据集暂无 ## 训练暂无 ## 推理 ### diffusers推理方法 ```bash ## 设置双卡推理 export HIP_VISIBLE_DEVICES=6,7 ## 代码内部请修改model_name路径 python ./infer/infer_hf.py ``` ## result ```bash 正在加载模型... 这可能需要一些时间。 ...... 模型加载成功！所有图片将保存在 'generated_images_DCU' 文件夹中。正在处理第 1/11 个prompt... Prompt: 'A cute capybara wearing a top hat, sitting in a library....' 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [01:20<00:00, 1.61s/it] 图片已成功保存为: 'generated_images_DCU/prompt_0.png' ...... 所有prompt处理完毕！ ``` ### 精度 ```bash # 运行acc.py之前，请分别在DCU和GPU上运行infer_hf.py，并将代码中folder_gpu变量和folder_dcu变量替换成生成的文件夹路径开始对比文件夹 '/home/zwq/project/shangchaun/external/qwen-image_hf/infer/generated_images_GPU' (基准) 和 '/home/zwq/project/shangchaun/external/qwen-image_hf/infer/generated_images_DCU' (测试)... - 对比 prompt_0.png: MAE=1.0268, PSNR=40.89dB, SSIM=0.9944 - 对比 prompt_1.png: MAE=2.7091, PSNR=28.35dB, SSIM=0.9760 - 对比 prompt_10.png: MAE=1.5839, PSNR=36.26dB, SSIM=0.9844 - 对比 prompt_2.png: MAE=2.8871, PSNR=29.00dB, SSIM=0.9636 - 对比 prompt_3.png: MAE=2.2327, PSNR=30.49dB, SSIM=0.9750 - 对比 prompt_4.png: MAE=2.3045, PSNR=31.78dB, SSIM=0.9778 - 对比 prompt_5.png: MAE=2.0608, PSNR=30.85dB, SSIM=0.9819 - 对比 prompt_6.png: MAE=2.9847, PSNR=27.91dB, SSIM=0.9639 - 对比 prompt_7.png: MAE=0.9722, PSNR=37.80dB, SSIM=0.9933 - 对比 prompt_8.png: MAE=1.8605, PSNR=33.35dB, SSIM=0.9839 - 对比 prompt_9.png: MAE=2.8696, PSNR=29.13dB, SSIM=0.9718 ================================================== --- 批量对比平均结果 --- 成功对比图片对数: 11 平均绝对误差 (MAE): 2.1356 平均峰值信噪比 (PSNR): 32.35 dB 平均结构相似性 (SSIM): 0.9787 ================================================== 详细报告已保存至: comparison_report.csv ``` DCU(K100AI)与GPU(A800)在BF16精度下推理Qwen-Image模型，结果精度一致，推理框架：diffusers。 ## 应用场景 ### 算法类别 `图像生成` ### 热点应用行业 `制造,金融,教育` ## 预训练权重 - [Qwen/Qwen-Image](https://huggingface.co/Qwen/Qwen-Image) ## 源码仓库及问题反馈 - https://developer.sourcefind.cn/codes/modelzoo/qwen-image_hf ## 参考资料 - https://github.com/QwenLM/Qwen-Image/tree/main