Commit dfb5200d authored by dcuai's avatar dcuai
Browse files

Update README.md

parent c574ae96
......@@ -76,9 +76,9 @@ pip install -r requirements.txt
## 数据集
pre_train 数据,目前最新的是wiki20220401的数据,但数据集压缩后近20GB,解压后300GB下载速度慢,解压占大量空间。enwiki-20220401-pages-articles-multistream.xml.bz2下载链接如下:
https://dumps.wikimedia.org/enwiki/20220401/
pre_train 数据,本项目使用的是wiki20220401的数据,但数据集压缩后近20GB,解压后300GB下载速度慢,解压占大量空间。由于wiki数据集经常更新,官网并不保留旧版数据集,这里提供处理好的seq128和seq512的数据集网盘下载链接
(seq128对应PHRASE1)链接:https://pan.baidu.com/s/13GA-Jmfr2qXrChjiM2UfFQ?pwd=l30u 提取码:l30u
(seq512对应PHRASE2)链接:https://pan.baidu.com/s/1MBFjYNsGQzlnc8aEb7Pg4w?pwd=6ap2 提取码:6ap2
这里使用服务器已有的wiki数据集服务器上有已经下载处理好的数据,预训练数据分为PHRASE1、PHRASE2
......@@ -86,7 +86,7 @@ https://dumps.wikimedia.org/enwiki/20220401/
```
──wikicorpus_en
│   ├── train
│   ├── training
│    ├── wikicorpus_en_training_0.tfrecord.hdf5
│    ├── wikicorpus_en_training_1000.tfrecord.hdf5
│ └── ...
......@@ -109,15 +109,6 @@ python3 wikiextractor/WikiExtractor.py wiki/enwiki-20200101-pages-articles-multi
./process_wiki.sh '<text/*/wiki_??'
```
```
#由于wiki数据集经常更新,官网并不保留旧版数据集,这里提供处理好的seq128的数据集网盘下载链接(对应PHRASE1)
链接:https://pan.baidu.com/s/13GA-Jmfr2qXrChjiM2UfFQ?pwd=l30u
提取码:l30u
```
问答SQUAD1.1数据:
......@@ -132,7 +123,7 @@ python3 wikiextractor/WikiExtractor.py wiki/enwiki-20200101-pages-articles-multi
└── train-v1.1.json
```
## 模型权重下载
### 模型权重下载
[用于squad训练的bert-large-uncased模型(已转换可直接使用) 提取密码:vs8d](https://pan.baidu.com/share/init?surl=V8kFpgsLQe8tOAeft-5UpQ)
......@@ -272,7 +263,7 @@ sh run_bert_pre2_4dcu.sh (需要fp16可以在相应single文件APP中增加 --
## 热点行业
`互联网`
`互联网,教育,科研`
## 源码仓库及问题反馈
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment