Commit 4a835b73 authored by dongchy920's avatar dongchy920
Browse files

Update README.md

parent 320df012
Pipeline #1597 failed with stages
in 0 seconds
......@@ -12,12 +12,12 @@ InstructBLIP是BLIP系列的最新模型,将LLM领域的指令微调技术应
BLIP(Bootstrapping Language-Image Pretraining)是salesforce在2022年提出的多模态框架,是理解和生成的统一,引入了跨模态的编码器和解码器,实现了跨模态信息流动。相比于CLIP使用image encoder和txt encoder两个独立的模块分别对图像和文本进行编码将输入投影到潜在向量空间中,BLIP的创新点在于引入了编码器-解码器的多模态混合结构MED( Multimodal mixture of Encoder-Decoder),能够有效地进行多任务预学习和迁移学习。MED包括两个单模态编码器(lmage Encoder,Text Encoder),一个以图像为基础的文本编码器(image-grounded text encoder)和一个以图像为基础的文本解码器(image-grounded text decoder),并设计了三类损失联合优化:
<div align=center>
<img src="./assets/BLIP.png"/>
<img src="./assets/BLIP.PNG"/>
</div>
与ALBEF、BLIP类似,BLIP-2的目标是训练一个图文多模态预训练模型。不同点是,BLIP-2是在冻结图像编码器和文本编码器的情况下,训练出多模态预训练模型。这给BLIP-2带来了巨大优势,也是其最大的创新点。为了让图像和文本产生交互,BLIP2设计了Q-Former模块来对图文进行对齐:
<div align=center>
<img src="./assets/BLIP2.png"/>
<img src="./assets/BLIP2.PNG"/>
</div>
InstructBLIP 的架构和 BLIP-2 相似,从预训练好的 BLIP-2 模型初始化,由图像编码器、LLM 和 Q-Former 组成。在指令微调期间只训练 Q-Former,冻结图像编码器和 LLM 的参数。
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment