v1.0.2

207c6325 · chenzk · 6dbb642d · 207c6325 · 207c6325 · 207c6325
Commit 207c6325 authored Nov 27, 2024 by chenzk
5 changed files
--- a/README.md
+++ b/README.md
@@ -54,6 +54,7 @@ docker build --no-cache -t llama:latest .
 docker run --shm-size=64G --name llama -v /opt/hyhal:/opt/hyhal:ro --privileged=true --device=/dev/kfd --device=/dev/dri/ --group-add video -v $PWD/../../allamo:/home/allamo -it llama bash
 # 若遇到Dockerfile启动的方式安装环境需要长时间等待，可注释掉里面的pip安装，启动容器后再安装python库：pip install -r requirements.txt。
 cd /home/allamo
+pip install -r requirements.txt
 pip install -e . #安装allamo库
 ```
 ### Anaconda（方法三）
@@ -77,6 +78,7 @@ xformers:0.0.25
 2、其它非特殊库参照requirements.txt安装
 ```
 cd /home/allamo
+pip install -r requirements.txt
 pip install -e . #安装allamo库
 ```
@@ -96,7 +98,7 @@ python prepare.py
 ```
 # 数据集制作方法二
 cd /home/allamo/scripts
-prepare_datasets.sh
+sh prepare_datasets.sh
 ```
 代码能力较强的读者也可以选择huggingface开源的其它模型，根据以下Demo自己编写tokenlizer来制作预训练数据，本项目本身支持其它tokenlizer格式的数据，例如`meta-llama/Llama-3.2-3B`、`Qwen/Qwen2.5-1.5B`等小计算量tokenlizer都是较好选择：
@@ -129,6 +131,8 @@ wandb disabled
 wandb offline
 cd /home/allamo
+mkdir /home/data/out-allamo-1B
 python train.py --config="./train_configs/train_1B.json"# 或sh train.sh
 # 其它功能正在优化中
 ```

--- a/docker/requirements.txt
+++ b/docker/requirements.txt
+docker-pycreds==0.4.0
+gitdb==4.0.11
+gitpython==3.1.43
+joblib==1.4.2
+sentry-sdk==2.18.0
+setproctitle==1.3.3
+smmap==5.0.1
+tiktoken==0.7.0
+accelerate
+transformers
+wandb==0.18.7
\ No newline at end of file
--- a/docker_start.sh
+++ b/docker_start.sh
-docker run -it --shm-size=32G -v $PWD/allamo:/home/allamo -v /parastor/DL_DATA/HOT:/home/HOT -v /opt/hyhal:/opt/hyhal:ro --privileged=true --device=/dev/kfd --device=/dev/dri/ --group-add video --name llama f6b99c8a0f01 bash
+docker run -it --shm-size=64G -v $PWD/allamo:/home/allamo -v /public/DL_DATA/AI:/home/AI -v /opt/hyhal:/opt/hyhal:ro --privileged=true --device=/dev/kfd --device=/dev/dri/ --group-add video --name llama 83714c19d308 bash
 # python -m torch.utils.collect_env
--- a/requirmens.txt
+++ b/requirmens.txt
--- a/scripts/data/train_index.txt
+++ b/scripts/data/train_index.txt
+File
+input.txt
\ No newline at end of file