Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
ModelZoo
BERT_pytorch
Commits
dfb5200d
Commit
dfb5200d
authored
Nov 23, 2023
by
dcuai
Browse files
Update README.md
parent
c574ae96
Changes
1
Hide whitespace changes
Inline
Side-by-side
Showing
1 changed file
with
6 additions
and
15 deletions
+6
-15
README.md
README.md
+6
-15
No files found.
README.md
View file @
dfb5200d
...
...
@@ -76,9 +76,9 @@ pip install -r requirements.txt
## 数据集
pre_train 数据,
目前最新
的是wiki20220401的数据,但数据集压缩后近20GB,解压后300GB下载速度慢,解压占大量空间。
en
wiki
-20220401-pages-articles-multistream.xml.bz2
下载链接
如下:
https://dumps.wikimedia.org/enwiki/20220401/
pre_train 数据,
本项目使用
的是wiki20220401的数据,但数据集压缩后近20GB,解压后300GB下载速度慢,解压占大量空间。
由于
wiki
数据集经常更新,官网并不保留旧版数据集,这里提供处理好的seq128和seq512的数据集网盘
下载链接
。
(seq128对应PHRASE1)链接:https://pan.baidu.com/s/13GA-Jmfr2qXrChjiM2UfFQ?pwd=l30u 提取码:l30u
(seq512对应PHRASE2)链接:https://pan.baidu.com/s/1MBFjYNsGQzlnc8aEb7Pg4w?pwd=6ap2 提取码:6ap2
这里使用服务器已有的wiki数据集服务器上有已经下载处理好的数据,预训练数据分为PHRASE1、PHRASE2
...
...
@@ -86,7 +86,7 @@ https://dumps.wikimedia.org/enwiki/20220401/
```
──wikicorpus_en
│ ├── train
│ ├── train
ing
│ ├── wikicorpus_en_training_0.tfrecord.hdf5
│ ├── wikicorpus_en_training_1000.tfrecord.hdf5
│ └── ...
...
...
@@ -109,15 +109,6 @@ python3 wikiextractor/WikiExtractor.py wiki/enwiki-20200101-pages-articles-multi
./process_wiki.sh '<text/*/wiki_??'
```
```
#由于wiki数据集经常更新,官网并不保留旧版数据集,这里提供处理好的seq128的数据集网盘下载链接(对应PHRASE1)
链接:https://pan.baidu.com/s/13GA-Jmfr2qXrChjiM2UfFQ?pwd=l30u
提取码:l30u
```
问答SQUAD1.1数据:
...
...
@@ -132,7 +123,7 @@ python3 wikiextractor/WikiExtractor.py wiki/enwiki-20200101-pages-articles-multi
└── train-v1.1.json
```
## 模型权重下载
##
#
模型权重下载
[
用于squad训练的bert-large-uncased模型(已转换可直接使用) 提取密码:vs8d
](
https://pan.baidu.com/share/init?surl=V8kFpgsLQe8tOAeft-5UpQ
)
...
...
@@ -272,7 +263,7 @@ sh run_bert_pre2_4dcu.sh (需要fp16可以在相应single文件APP中增加 --
## 热点行业
`互联网`
`互联网
,教育,科研
`
## 源码仓库及问题反馈
...
...
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment