update readme

7214d25a · wangsen · 3118bd30 · 7214d25a
Commit 7214d25a authored Mar 04, 2024 by wangsen
Hide whitespace changes
Inline Side-by-side

Showing with 5 additions and 2 deletions

README.md README.md +5 -2

No files found.
--- a/README.md
+++ b/README.md
@@ -11,11 +11,14 @@ VisualGLM 模型架构是 ViT + QFormer + ChatGLM，在预训练阶段对 QForme
 ## 算法原理
-VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。
+VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁。BLIP-2 通过在冻结的预训练图像编码器和冻结的预训练大语言模型之间添加一个轻量级查询 Transformer (Query Transformer, Q-Former) 来弥合视觉和语言模型之间的模态隔阂 (modality gap)。
-VisualGLM-6B 由 SwissArmyTransformer(简称sat) 库训练，这是一个支持Transformer灵活修改、训练的工具库，支持Lora、P-tuning等参数高效微调方法。本项目提供了符合用户习惯的huggingface接口，也提供了基于sat的接口。
 <div align=center>
    <img src="./doc/Former.png"/>
 </div>
+在整个模型中，Q-Former 是唯一的可训练模块，而图像编码器和语言模型始终保持冻结状态。Q-Former 是一个 transformer 模型，它由两个子模块组成，这两个子模块共享相同的自注意力层:与冻结的图像编码器交互的图像 transformer，用于视觉特征提取文本 transformer，用作文本编码器和解码器。
+VisualGLM-6B 由 SwissArmyTransformer(简称sat) 库训练，这是一个支持Transformer灵活修改、训练的工具库，支持Lora、P-tuning等参数高效微调方法。本项目提供了符合用户习惯的huggingface接口，也提供了基于sat的接口。
 ## 环境配置
 ### Docker（方法一）