Unverified Commit b158c97e authored by ShuoZhang2003's avatar ShuoZhang2003 Committed by GitHub
Browse files

Update README_cn.md

parent 2c49a017
...@@ -27,6 +27,7 @@ Zhang Li*, Biao Yang*, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, ...@@ -27,6 +27,7 @@ Zhang Li*, Biao Yang*, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun,
**Monkey** 引入了一种高效的训练方法,可以有效地将输入分辨率提高到 896 x 1344 ,同时不需要从开始进行预训练。为了弥合简单的文本描述和高输入分辨率之间的差距,Monkey 还提出了一种多级描述生成方法,该方法自动提供丰富的信息,可以指导模型学习场景和对象之间的关联。通过这两种设计的协同作用,Monkey 在多个基准测试中取得了优异的结果。与各种多模态大模型(包括 GPT4V)相比,Monkey 通过关注文本信息并捕获图像中的精细细节,在图像字幕方面表现出了良好的性能;高输入分辨率还可以使模型在具有密集文本的文档图像中展现出出色的性能。 **Monkey** 引入了一种高效的训练方法,可以有效地将输入分辨率提高到 896 x 1344 ,同时不需要从开始进行预训练。为了弥合简单的文本描述和高输入分辨率之间的差距,Monkey 还提出了一种多级描述生成方法,该方法自动提供丰富的信息,可以指导模型学习场景和对象之间的关联。通过这两种设计的协同作用,Monkey 在多个基准测试中取得了优异的结果。与各种多模态大模型(包括 GPT4V)相比,Monkey 通过关注文本信息并捕获图像中的精细细节,在图像字幕方面表现出了良好的性能;高输入分辨率还可以使模型在具有密集文本的文档图像中展现出出色的性能。
## 新闻 ## 新闻
* ```2023.12.21``` 🚀🚀🚀 Monkey 训练使用的 JSON 文件发布。
* ```2023.12.16``` 🚀🚀🚀 Monkey 可以使用 8 NVIDIA 3090 GPUs 进行训练。详见[训练](#训练) * ```2023.12.16``` 🚀🚀🚀 Monkey 可以使用 8 NVIDIA 3090 GPUs 进行训练。详见[训练](#训练)
* ```2023.11.25``` 🚀🚀🚀 Monkey [对话演示](http://27.18.7.151:7681/)发布。 * ```2023.11.25``` 🚀🚀🚀 Monkey [对话演示](http://27.18.7.151:7681/)发布。
* ```2023.11.06``` 🚀🚀🚀 Monkey [论文](https://arxiv.org/abs/2311.06607)发布。 * ```2023.11.06``` 🚀🚀🚀 Monkey [论文](https://arxiv.org/abs/2311.06607)发布。
...@@ -93,6 +94,8 @@ chat_query = "Generate the detailed caption in English. Answer:" ...@@ -93,6 +94,8 @@ chat_query = "Generate the detailed caption in English. Answer:"
## 数据集 ## 数据集
Monkey训练使用的json文件可以在[链接](https://drive.google.com/file/d/18z_uQTe8Jq61V5rgHtxOt85uKBodbvw1/view?usp=sharing)获取。
我们开源了多级描述生成方法生成的数据。您可以在这里下载:[详细描述数据](https://huggingface.co/datasets/echo840/Detailed_Caption). 我们开源了多级描述生成方法生成的数据。您可以在这里下载:[详细描述数据](https://huggingface.co/datasets/echo840/Detailed_Caption).
...@@ -142,6 +145,8 @@ bash eval/eval.sh 'EVAL_PTH' 'SAVE_NAME' ...@@ -142,6 +145,8 @@ bash eval/eval.sh 'EVAL_PTH' 'SAVE_NAME'
我们还提供 Monkey 的模型定义和训练代码,您可以在上面进行探索。 通过执行`finetune_ds_debug.sh`来进行训练。 我们还提供 Monkey 的模型定义和训练代码,您可以在上面进行探索。 通过执行`finetune_ds_debug.sh`来进行训练。
Monkey训练使用的json文件可以在[链接](https://drive.google.com/file/d/18z_uQTe8Jq61V5rgHtxOt85uKBodbvw1/view?usp=sharing)获取。
**注意:** 需要指定训练数据的路径,该路径应该是包含对话列表的 json 文件。 **注意:** 需要指定训练数据的路径,该路径应该是包含对话列表的 json 文件。
受 Qwen-VL 的启发,我们冻结了大型语言模型(LLM),并将 LoRA 引入四个线性层```"c_attn"、"attn.c_proj"、"w1"、"w2"```进行训练。 这使得使用 8 个 NVIDIA 3090 GPU 训练 Monkey 成为可能。 受 Qwen-VL 的启发,我们冻结了大型语言模型(LLM),并将 LoRA 引入四个线性层```"c_attn"、"attn.c_proj"、"w1"、"w2"```进行训练。 这使得使用 8 个 NVIDIA 3090 GPU 训练 Monkey 成为可能。
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment