Commit 2f487cb5 authored by wangsen's avatar wangsen
Browse files

update readme.md

parent 03a9fae0
......@@ -4,15 +4,18 @@
## 模型结构
VisualGLM 模型架构是 ViT + QFormer + ChatGLM,在预训练阶段对 QFormer 和 ViT LoRA 进行训练,在微调阶段对 QFormer 和 ChatGLM LoRA 进行训练,训练目标是自回归损失(根据图像生成正确的文本)和对比损失(输入 ChatGLM 的视觉特征与对应文本的语义特征对齐)
<div align=center>
<img src="./doc/image.png"/>
</div>
## 算法原理
VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。
VisualGLM-6B 由 SwissArmyTransformer(简称sat) 库训练,这是一个支持Transformer灵活修改、训练的工具库,支持Lora、P-tuning等参数高效微调方法。本项目提供了符合用户习惯的huggingface接口,也提供了基于sat的接口。
<div align=center>
<img src="./doc/Former.png"/>
</div>
## 环境配置
### Docker(方法一)
......@@ -80,6 +83,10 @@ curl -X POST -H "Content-Type: application/json" -d @temp.json http://127.0.0.1:
以目录中examples/1.jpeg图片进行推理为例,推理后的结果为:
&nbsp;
"泰坦尼克号,男女主角在船头拥抱。海水翻涌,他们的爱情如海浪般澎湃。 夕阳余晖下,两人的身影渐渐消失。"
<div align=center>
<img src="./examples/1.jpeg"/>
</div>
### 精度
## 应用场景
......
......@@ -4,6 +4,6 @@ modelCode = 525
modelName=visualglm6b_pytorch
modelDescription=VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数
# 应用场景
appScenario=推理,多模态推理,零售,广媒,科研,图像理解
appScenario=推理,零售,广媒,科研,图像理解
frameType=pytorch
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment