v1.0

799a38c5 · chenzk · 799a38c5 · 799a38c5 · 799a38c5 · 799a38c5
Commit 799a38c5 authored Nov 10, 2023 by chenzk
20 changed files
--- a/data/nlu_data/mnli_dataset.py
+++ b/data/nlu_data/mnli_dataset.py
--- a/data/nlu_data/mrpc_dataset.py
+++ b/data/nlu_data/mrpc_dataset.py
--- a/data/nlu_data/qnli_dataset.py
+++ b/data/nlu_data/qnli_dataset.py
--- a/data/nlu_data/qqp_dataset.py
+++ b/data/nlu_data/qqp_dataset.py
--- a/data/nlu_data/rte_dataset.py
+++ b/data/nlu_data/rte_dataset.py
--- a/data/nlu_data/sst2_dataset.py
+++ b/data/nlu_data/sst2_dataset.py
--- a/data/ofa_dataset.py
+++ b/data/ofa_dataset.py
--- a/data/pretrain_data/__pycache__/unify_dataset.cpython-38.pyc
+++ b/data/pretrain_data/__pycache__/unify_dataset.cpython-38.pyc
--- a/data/pretrain_data/unify_dataset.py
+++ b/data/pretrain_data/unify_dataset.py
--- a/data/s2t_data/__pycache__/unify_dataset.cpython-38.pyc
+++ b/data/s2t_data/__pycache__/unify_dataset.cpython-38.pyc
--- a/data/s2t_data/unify_dataset.py
+++ b/data/s2t_data/unify_dataset.py
--- a/datasets.md
+++ b/datasets.md
+# Datasets
+We provide links to download our preprocessed dataset. If you would like to process the data on your own, we will soon provide scripts for you to do so. 
+## Pretraining
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/pretrain_data/pretrain_data_examples.zip"> A small subset of the pretraining data </a>
+ The pretraining datasets used in OFA are all publicly available. Here we provide the public links to these data, it is recommended that you download the data from the links first, and then process the downloaded dataset into a similar format as the examples we provided.
+-   _CC12M_:  https://github.com/google-research-datasets/conceptual-12m
+-   _CC3M_: https://github.com/google-research-datasets/conceptual-captions
+-   _SBU_: https://www.cs.virginia.edu/~vicente/sbucaptions
+-   _COCO_: https://cocodataset.org/#home
+-   _VG_: https://visualgenome.org/
+-   _VQAv2_: https://visualqa.org/
+- _GQA_: https://cs.stanford.edu/people/dorarad/gqa/about.html
+- _RefCOCO_/_RefCOCO+_/RefCOCOg: https://github.com/lichengunc/refer
+-   _OpenImages_: https://storage.googleapis.com/openimages/web/index.html
+-   _Object365_: https://www.objects365.org/overview.html
+-   _YFCC100M (subset)_: https://github.com/openai/CLIP/blob/main/data/yfcc100m.md
+-   _ImageNet-21K_: https://image-net.org/index.php
+-   _Pile_: https://pile.eleuther.ai
+## Vision & Language Tasks
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/caption_data/caption_data.zip"> Dataset for Caption </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/refcoco_data/refcoco_data.zip"> Dataset for RefCOCO </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/refcocoplus_data/refcocoplus_data.zip"> Dataset for RefCOCO+ </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/refcocog_data/refcocog_data.zip"> Dataset for RefCOCOg </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/vqa_data/vqa_data.zip"> Dataset for VQAv2 </a> (we have also provided chunked parts of the dataset files for more convenient downloading, please refer to <a href="https://github.com/OFA-Sys/OFA/issues/68#issuecomment-1096837349">issue #68</a>)
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/snli_ve_data/snli_ve_data.zip"> Dataset for SNLI-VE </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/coco_image_gen_data/coco_image_gen.zip"> Dataset for Text-to-Image Genearion </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/coco_image_gen_data/coco_image_gen_origin_id.zip"> Dataset for Text-to-Image Genearion (with original id) </a>
+## Vision Tasks
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/imagenet_1k_data/imagenet_1k_data.zip"> Dataset for ImageNet-1K </a>
+## Language Tasks
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/glue_data/cola_data.zip"> Dataset for COLA </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/glue_data/mnli_data.zip"> Dataset for MNLI </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/glue_data/mrpc_data.zip"> Dataset for MRPC </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/glue_data/qnli_data.zip"> Dataset for QNLI </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/glue_data/qqp_data.zip"> Dataset for QQP </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/glue_data/rte_data.zip"> Dataset for RTE </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/glue_data/sst2_data.zip"> Dataset for SST2 </a>
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/gigaword_data/gigaword_data.zip"> Dataset for Gigaword </a>
+## OFA Raw Images for Case Study
+ * <a href="https://ofa-beijing.oss-cn-beijing.aliyuncs.com/datasets/ofa_images.zip"> OFA Raw Images for Case Study </a>
+Here we provide raw image files for visualization examples in OFA.
--- a/doc/datasets.png
+++ b/doc/datasets.png
--- a/doc/structure.png
+++ b/doc/structure.png
--- a/doc/test.png
+++ b/doc/test.png
--- a/doc/theory.png
+++ b/doc/theory.png
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
+FROM image.sourcefind.cn:5000/dcu/admin/base/pytorch:1.13.1-centos7.6-dtk-23.04-py38-latest
+ENV DEBIAN_FRONTEND=noninteractive
+# RUN yum update && yum install -y git cmake wget build-essential
+RUN source /opt/dtk-23.04/env.sh
+# 安装pip相关依赖
+COPY requirements.txt requirements.txt
+RUN pip3 install -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com -r requirements.txt
--- a/docker/requirements.txt
+++ b/docker/requirements.txt
--- a/docker_start.sh
+++ b/docker_start.sh
+docker run -it -v /parastor/home/chenzk/:/home/ --shm-size=32G --privileged=true --device=/dev/kfd --device=/dev/dri/ --group-add video --name ofa 2bb84d403fac bash
--- a/evaluate.py
+++ b/evaluate.py