"examples/pytorch/vscode:/vscode.git/clone" did not exist on "d70a362dba8d46fd9838c79d76998a5e33f22cb7"
Commit a62da366 authored by wanglch's avatar wanglch
Browse files

Update README.md

parent fbd4afb9
...@@ -7,7 +7,10 @@ ...@@ -7,7 +7,10 @@
- [Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models](https://arxiv.org/abs/2312.06109) - [Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models](https://arxiv.org/abs/2312.06109)
## 模型结构 ## 模型结构
Vary的整体思想很简单,主要分为两个阶段,Vary-tiny和Vary-base:
Vary-tiny:设计了一个词汇表网络和一个小型的仅解码器的转换器,通过自回归生成所需的新视觉词汇表。这个词汇表会和OPT-125M模型一起训练。
Vary-base:将新的视觉词汇表与原始词汇表(CLIP)合并,扩展了vanilla(原始的)视觉词汇表。联合LLM-7B模型进行训练。
<div align="center"> <div align="center">
<img src="./image/model.png"/> <img src="./image/model.png"/>
</div> </div>
...@@ -23,7 +26,7 @@ ...@@ -23,7 +26,7 @@
### Docker(方法一) ### Docker(方法一)
[光源](https://www.sourcefind.cn/#/service-details)拉取docker镜像的地址与使用步骤 [光源](https://www.sourcefind.cn/#/service-details)拉取docker镜像的地址与使用步骤
注:在部署环境前需将Vary/vary/demo/run_qwen_vary.py和Vary/vary/model/vary_qwen_vary.py中的模型路径改为本地模型路径,同时将模型中的config.json文件中的模型路径改为本地路径,完成以上操作后再执行pip install e .指令。 `注:在部署环境前需将Vary/vary/demo/run_qwen_vary.py和Vary/vary/model/vary_qwen_vary.py中的模型路径改为本地模型路径,同时将模型中的config.json文件中的模型路径改为本地路径,完成以上操作后再执行pip install e .指令。`
``` ```
docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-ubuntu22.04-dtk23.10.1-py310 docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-ubuntu22.04-dtk23.10.1-py310
...@@ -160,43 +163,39 @@ bash run.sh ...@@ -160,43 +163,39 @@ bash run.sh
## result ## result
### 英语文档
### 英语文档ocr结果
<div align=center> <div align=center>
<img src="./image/pic3.jpg"/> <img src="./image/pic3.jpg"/>
</div> </div>
### 英语文档ocr结果
<div align=center> <div align=center>
<img src="./assets/ocr_en.png"/> <img src="./assets/ocr_en.png"/>
</div> </div>
### 中文文档ocr结果
### 中文文档
<div align=center> <div align=center>
<img src="./image/pic2.jpg"/> <img src="./image/pic2.jpg"/>
</div> </div>
### 中文文档ocr结果
<div align=center> <div align=center>
<img src="./assets/ocr_cn.png"/> <img src="./assets/ocr_cn.png"/>
</div> </div>
### 车牌识别 ### 车牌识别结果
<div align=center> <div align=center>
<img src="./image/car.png"/> <img src="./image/car.png"/>
</div> </div>
### 车牌识别结果
<div align=center> <div align=center>
<img src="./assets/car_number.png"/> <img src="./assets/car_number.png"/>
</div> </div>
### 内容识别 ### 内容识别结果
<div align=center> <div align=center>
<img src="./image/pic.jpg"/> <img src="./image/pic.jpg"/>
</div> </div>
### 内容识别结果
<div align=center> <div align=center>
<img src="./assets/pic_result.png"/> <img src="./assets/pic_result.png"/>
</div> </div>
...@@ -208,7 +207,7 @@ bash run.sh ...@@ -208,7 +207,7 @@ bash run.sh
## 应用场景 ## 应用场景
### 算法类别 ### 算法类别
`图文OCR` `OCR`
### 热点应用行业 ### 热点应用行业
`金融,教育,政府,科研,交通,广媒` `金融,教育,政府,科研,交通,广媒`
...@@ -228,5 +227,5 @@ bash run.sh ...@@ -228,5 +227,5 @@ bash run.sh
- http://developer.hpccube.com/codes/modelzoo/vary_pytorch.git - http://developer.hpccube.com/codes/modelzoo/vary_pytorch.git
## 参考资料 ## 参考资料
- 本项目gitlab地址[Ucas-HaoranWei/Vary](https://github.com/Ucas-HaoranWei/Vary) - [Ucas-HaoranWei/Vary](https://github.com/Ucas-HaoranWei/Vary)
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment