Update url.md

606eb37e · chenzk · 81aa4309 · 606eb37e
Commit 606eb37e authored Apr 15, 2025 by chenzk
Hide whitespace changes
Inline Side-by-side

Showing with 1 addition and 3 deletions

README.md README.md +1 -3

No files found.
--- a/README.md
+++ b/README.md
@@ -90,7 +90,7 @@ pip install whl/rotary_emb-0.1.0+das.opt2.dtk24043-cp310-cp310-manylinux_2_28_x8
 数据集在训练之前需要用tokenlizer处理成NLP模型的输入tokens，Facebook官方采用tiktoken库制作tockens便可训练出SOTA模型：[`llama3 tokenizer`](https://github.com/meta-llama/llama3/blob/main/llama/tokenizer.py)，本项目可根据读者需求自由选择各种HF的开源tokenlizer，将其填写在`config`的`.yaml`中便可自动被项目调用。
-`openwebtext-10k`用于tiny llama预训练示例，[`fineweb-edu-dedup`](http://113.200.138.88:18080/aidatasets/argilla-warehouse/fineweb-edu-dedup-filtered.git) 用于smollm预训练示例（HF公司自研人工智能模型），从SCNet快速下载通道下载后重命名即可，原始`fineweb-edu-dedup`数据(`*.parquet`)可通过以下命令转换成`fineweb-edu-dedup-ds`数据(`*.ds`)，`datatrove`制作`*.ds`数据参考[`Nanosets`](./docs/nanoset.md):
+`openwebtext-10k`用于tiny llama预训练示例，[`fineweb-edu-dedup`](https://huggingface.co/datasets/argilla-warehouse/fineweb-edu-dedup-filtered) 用于smollm预训练示例（HF公司自研人工智能模型），从SCNet快速下载通道下载后重命名即可，原始`fineweb-edu-dedup`数据(`*.parquet`)可通过以下命令转换成`fineweb-edu-dedup-ds`数据(`*.ds`)，`datatrove`制作`*.ds`数据参考[`Nanosets`](./docs/nanoset.md):
 ```
 sh convert_data_to_ds.sh
 ```
@@ -215,8 +215,6 @@ DCU与GPU精度一致，推理框架：pytorch。
 ### 热点应用行业
 `制造,广媒,金融,能源,医疗,家居,教育`
 ## 预训练权重
-预训练权重快速下载中心：[SCNet AIModels](http://113.200.138.88:18080/aimodels) ，项目中的预训练权重可从快速下载通道下载：[Llama-3.1-8B](http://113.200.138.88:18080/aimodels/meta-llama/Meta-Llama-3.1-8B.git) 、[Llama-3.2-3B](http://113.200.138.88:18080/aimodels/meta-llama/Llama-3.2-3B.git) 。
 Hugging Face下载地址为：[meta-llama/Llama-3.1-8B](https://huggingface.co/meta-llama/Llama-3.1-8B) 、[meta-llama/Llama-3.2-3B](https://huggingface.co/meta-llama/Llama-3.2-3B) 
 ## 源码仓库及问题反馈
 - http://developer.sourcefind.cn/codes/modelzoo/nanotron_pytorch.git