Update README.md

dfb5200d · dcuai · c574ae96 · dfb5200d
Commit dfb5200d authored Nov 23, 2023 by dcuai
Hide whitespace changes
Inline Side-by-side

Showing with 6 additions and 15 deletions

README.md README.md +6 -15

No files found.
--- a/README.md
+++ b/README.md
@@ -76,9 +76,9 @@ pip install -r requirements.txt

 ## 数据集

-pre_train 数据，目前最新的是wiki20220401的数据，但数据集压缩后近20GB，解压后300GB下载速度慢，解压占大量空间。enwiki-20220401-pages-articles-multistream.xml.bz2下载链接如下：
-
-https://dumps.wikimedia.org/enwiki/20220401/ 
+pre_train 数据，本项目使用的是wiki20220401的数据，但数据集压缩后近20GB，解压后300GB下载速度慢，解压占大量空间。由于wiki数据集经常更新,官网并不保留旧版数据集，这里提供处理好的seq128和seq512的数据集网盘下载链接。
+（seq128对应PHRASE1）链接：https://pan.baidu.com/s/13GA-Jmfr2qXrChjiM2UfFQ?pwd=l30u  提取码：l30u
+（seq512对应PHRASE2）链接：https://pan.baidu.com/s/1MBFjYNsGQzlnc8aEb7Pg4w?pwd=6ap2  提取码：6ap2 

 这里使用服务器已有的wiki数据集服务器上有已经下载处理好的数据，预训练数据分为PHRASE1、PHRASE2

@@ -86,7 +86,7 @@ https://dumps.wikimedia.org/enwiki/20220401/

 ```
 ──wikicorpus_en 
-    │   ├── train
+    │   ├── training
    │             ├── wikicorpus_en_training_0.tfrecord.hdf5
    │             ├── wikicorpus_en_training_1000.tfrecord.hdf5
    │             └── ...
@@ -109,15 +109,6 @@ python3 wikiextractor/WikiExtractor.py wiki/enwiki-20200101-pages-articles-multi
 ./process_wiki.sh '<text/*/wiki_??'  
 ```

-```
-#由于wiki数据集经常更新,官网并不保留旧版数据集，这里提供处理好的seq128的数据集网盘下载链接（对应PHRASE1）
-链接：https://pan.baidu.com/s/13GA-Jmfr2qXrChjiM2UfFQ?pwd=l30u 
-提取码：l30u 
-```
-
-
-
-

 问答SQUAD1.1数据：

@@ -132,7 +123,7 @@ python3 wikiextractor/WikiExtractor.py wiki/enwiki-20200101-pages-articles-multi
 └── train-v1.1.json
 ```

-## 模型权重下载
+### 模型权重下载

 [用于squad训练的bert-large-uncased模型(已转换可直接使用)  提取密码：vs8d](https://pan.baidu.com/share/init?surl=V8kFpgsLQe8tOAeft-5UpQ)

@@ -272,7 +263,7 @@ sh run_bert_pre2_4dcu.sh （需要fp16可以在相应single文件APP中增加 --

 ## 热点行业

-`互联网`
+`互联网,教育,科研`

 ## 源码仓库及问题反馈