Update

Signed-off-by: lijian <lijian6@sugon.com>

Update
Signed-off-by: lijian <lijian6@sugon.com>
cc0cc70c · lijian6 · 7abdf740 · cc0cc70c · cc0cc70c · cc0cc70c
Commit cc0cc70c authored Sep 12, 2023 by lijian6
Show whitespace changes
Inline Side-by-side

Showing with 34 additions and 33 deletions

README.md README.md +28 -30

docker/Dockerfile docker/Dockerfile +1 -0

model.properties model.properties +5 -3

No files found.
--- a/README.md
+++ b/README.md
-# ViT_MIGraphX
+# ViT 

-## 目录
- [目录结构](#目录结构)
- [项目介绍](#项目介绍)
- [环境配置](#环境配置)
- [编译运行](#编译运行)
- [参考数据](#参考数据)
- [历史版本](#历史版本)
+## 论文
+`An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale`
+- https://arxiv.org/abs/2010.11929
+## 模型结构
+Vision Transformer先将图像用卷积进行分块以降低计算量，再对每一块进行展平处理变成序列，然后将序列添加位置编码和cls token，再输入多层Transformer结构提取特征，最后将cls tooken取出来通过一个MLP（多层感知机）用于分类。

-## 目录结构
-```
-├── Images
-├── Makefile
-├── Models
-│   └── model.onnx
-├── Python
-├── README.md
-└── src
-    └── main.cpp
-```
-
-## 项目介绍
-
-ViT是将Transformer应用到视觉领域的模型结构，本项目是ViT模型在MIGraphX推理框架上的分类推理示例
+![img](./doc/vit.png)
+## 算法原理
+图像领域借鉴《Transformer is all you need！》算法论文中的Encoder结构提取特征，Transformer的核心思想是利用注意力模块attention提取特征：

+![img](./doc/attention.png)
 ## 环境配置
-
-推荐使用docker方式运行，提供[光源](https://www.sourcefind.cn/#/service-list)拉取的docker镜像
-
+### Docker（方法一）
 ```
 docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:decode-ffmpeg-dtk23.04
+# <your IMAGE ID>用以上拉取的docker的镜像ID替换
+docker run --shm-size 10g --network=host --name=vit_migraphx --privileged --device=/dev/kfd --device=/dev/dri --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -v path_to_vit_migraphx:/home/vit_migraphx -it <your IMAGE ID> bash
+```
+### Dockerfile（方法二）
+```
+cd vit_migraphx/docker
+docker build --no-cache -t vit_migraphx:test .
+docker run --rm --shm-size 10g --network=host --name=vit_migraphx --privileged --device=/dev/kfd --device=/dev/dri --group-add video --cap-add=SYS_PTRACE --security-opt seccomp=unconfined -v path_to_vit_migraphx:/home/vit_migraphx -it vit_migraphx:test bash
 ```
-
 ## 编译运行

 ### 编译
@@ -71,7 +63,13 @@ tar -zxvf flower_photos.tgz
 | MIGraphX | models/model.onnx | sunflowers | 97.4 |
 | MIGraphX | models/model.onnx | tulips | 94.1 |

-## 源码仓库及问题反馈
-
-https://developer.hpccube.com/codes/modelzoo/vit_migraphx.git

+## 应用场景
+### 算法类别
+`图像分类`
+### 热点应用行业
+`制造,环境,医疗,气象`
+## 源码仓库及问题反馈
+- https://developer.hpccube.com/codes/modelzoo/vit_migraphx.git
+## 参考资料
+- https://github.com/WZMIAOMIAO/deep-learning-for-image-processing
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
+FROM image.sourcefind.cn:5000/dcu/admin/base/custom:decode-ffmpeg-dtk23.04
--- a/model.properties
+++ b/model.properties
+# 模型编码
+modelCode=230
 # 模型名称
-modelName=Vision_Transformer
+modelName=ViT_MIGraphX
 # 模型描述
 modelDescription=ViT是一个基于transformer的视觉图像分类模型
 # 应用场景(多个标签以英文逗号分割)
-appScenario=训练,推理,train,inference,Pytorch,MIGraphX,图像分类,C++
+appScenario=训练,推理,图像分类
 # 框架类型(多个标签以英文逗号分割)
-frameType=MIGraphX
+frameType=MIGraphX,Pytorch