"vscode:/vscode.git/clone" did not exist on "f758c7c1d1c6ec757ed0b0188736fda27d0dfdf1"
Commit 2f487cb5 authored by wangsen's avatar wangsen
Browse files

update readme.md

parent 03a9fae0
...@@ -4,15 +4,18 @@ ...@@ -4,15 +4,18 @@
## 模型结构 ## 模型结构
VisualGLM 模型架构是 ViT + QFormer + ChatGLM,在预训练阶段对 QFormer 和 ViT LoRA 进行训练,在微调阶段对 QFormer 和 ChatGLM LoRA 进行训练,训练目标是自回归损失(根据图像生成正确的文本)和对比损失(输入 ChatGLM 的视觉特征与对应文本的语义特征对齐) VisualGLM 模型架构是 ViT + QFormer + ChatGLM,在预训练阶段对 QFormer 和 ViT LoRA 进行训练,在微调阶段对 QFormer 和 ChatGLM LoRA 进行训练,训练目标是自回归损失(根据图像生成正确的文本)和对比损失(输入 ChatGLM 的视觉特征与对应文本的语义特征对齐)
<div align=center> <div align=center>
<img src="./doc/image.png"/> <img src="./doc/image.png"/>
</div> </div>
## 算法原理 ## 算法原理
VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。 VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。
VisualGLM-6B 由 SwissArmyTransformer(简称sat) 库训练,这是一个支持Transformer灵活修改、训练的工具库,支持Lora、P-tuning等参数高效微调方法。本项目提供了符合用户习惯的huggingface接口,也提供了基于sat的接口。 VisualGLM-6B 由 SwissArmyTransformer(简称sat) 库训练,这是一个支持Transformer灵活修改、训练的工具库,支持Lora、P-tuning等参数高效微调方法。本项目提供了符合用户习惯的huggingface接口,也提供了基于sat的接口。
<div align=center>
<img src="./doc/Former.png"/>
</div>
## 环境配置 ## 环境配置
### Docker(方法一) ### Docker(方法一)
...@@ -80,6 +83,10 @@ curl -X POST -H "Content-Type: application/json" -d @temp.json http://127.0.0.1: ...@@ -80,6 +83,10 @@ curl -X POST -H "Content-Type: application/json" -d @temp.json http://127.0.0.1:
以目录中examples/1.jpeg图片进行推理为例,推理后的结果为: 以目录中examples/1.jpeg图片进行推理为例,推理后的结果为:
&nbsp; &nbsp;
"泰坦尼克号,男女主角在船头拥抱。海水翻涌,他们的爱情如海浪般澎湃。 夕阳余晖下,两人的身影渐渐消失。" "泰坦尼克号,男女主角在船头拥抱。海水翻涌,他们的爱情如海浪般澎湃。 夕阳余晖下,两人的身影渐渐消失。"
<div align=center>
<img src="./examples/1.jpeg"/>
</div>
### 精度 ### 精度
## 应用场景 ## 应用场景
......
...@@ -4,6 +4,6 @@ modelCode = 525 ...@@ -4,6 +4,6 @@ modelCode = 525
modelName=visualglm6b_pytorch modelName=visualglm6b_pytorch
modelDescription=VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数 modelDescription=VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数
# 应用场景 # 应用场景
appScenario=推理,多模态推理,零售,广媒,科研,图像理解 appScenario=推理,零售,广媒,科研,图像理解
frameType=pytorch frameType=pytorch
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment