Commit 4ca283bb authored by “yuguo”'s avatar “yuguo”
Browse files

update

parent 9c5beeac
...@@ -49,7 +49,7 @@ LLaMA,这是一个基础语言模型的集合,参数范围从7B到65B。在 ...@@ -49,7 +49,7 @@ LLaMA,这是一个基础语言模型的集合,参数范围从7B到65B。在
## 环境配置 ## 环境配置
按照节点环境修改env.sh,环境变量参考dtk-22.10。修改2节点16卡Z00L裸金属节点,要求dtk环境正常,mpirun文件夹下包含预编译好的openmpi库mpi4.tar.gz,可直接使用。关于本项目DCU显卡所需torch库等均可从[光合](https://developer.hpccube.com/tool/)开发者社区下载安装: 由于多节点环境配置差异较大,因此可按照节点环境修改env.sh,环境变量参考dtk-22.10,python3.8环境正常,网口正常。使用2个8卡Z00L裸金属节点,要求dtk环境正常,mpirun文件夹下包含预编译好的openmpi库mpi4.tar.gz,可直接使用。关于本项目DCU显卡所需torch库等均可从[光合](https://developer.hpccube.com/tool/)开发者社区下载安装:
``` ```
cp -r mpirun/* ./ cp -r mpirun/* ./
...@@ -106,7 +106,7 @@ pip3 uninstall wandb ...@@ -106,7 +106,7 @@ pip3 uninstall wandb
进入节点1,根据环境修改hostfile,保证两节点文件路径一致,配置相同,按需修改mpi_job.sh中--mca btl_tcp_if_include enp97s0f1,enp97s0f1改为ip a命令后对应节点ip的网卡名,numa可以根据当前节点拓扑更改绑定,微调命令: 进入节点1,根据环境修改hostfile,保证两节点文件路径一致,配置相同,按需修改mpi_job.sh中--mca btl_tcp_if_include enp97s0f1,enp97s0f1改为ip a命令后对应节点ip的网卡名,numa可以根据当前节点拓扑更改绑定,微调命令:
``` ```
source mpi_job.sh bash mpi_job.sh
``` ```
如果单节点运行7B的模型出现oom,可以适当减少batch size。 如果单节点运行7B的模型出现oom,可以适当减少batch size。
...@@ -121,6 +121,20 @@ source mpi_job.sh ...@@ -121,6 +121,20 @@ source mpi_job.sh
| 卡数 | 分布式工具 | 收敛性 | | 卡数 | 分布式工具 | 收敛性 |
| :------: | :------: |:------: | | :------: | :------: |:------: |
| 16 | deepspeed | total_loss: 0.62/150 steps | | 16 | deepspeed | total_loss: 0.62/150 steps |
## result
### input
```plaintext
>>>冬天,中国哪座城市最适合避寒?问题描述:能推荐一些国内适合冬天避寒的城市吗?回答用户:旅游爱好者
```
### output
```plaintext
>>>回答:避寒,当然是去海南呀!海南的冬天,阳光明媚,温度适宜,而且空气清新,没有雾霾,没有沙尘暴,没有雾霾,没有雾霾!
```
## 应用场景 ## 应用场景
### 算法类别 ### 算法类别
...@@ -129,11 +143,11 @@ source mpi_job.sh ...@@ -129,11 +143,11 @@ source mpi_job.sh
### 热点应用行业 ### 热点应用行业
`nlp,智能聊天助手,科研` `医疗,教育,科研,金融`
## 源码仓库及问题反馈 ## 源码仓库及问题反馈
- https://developer.hpccube.com/codes/modelzoo/llama_torch - https://developer.hpccube.com/codes/modelzoo/llama_fastchat_pytorch
## 参考 ## 参考
......
...@@ -5,6 +5,6 @@ modelName=llama_fastchat_pytorch ...@@ -5,6 +5,6 @@ modelName=llama_fastchat_pytorch
# 模型描述 # 模型描述
modelDescription=基于Pytorch框架的llama-13b modelDescription=基于Pytorch框架的llama-13b
# 应用场景(多个标签以英文逗号分割) # 应用场景(多个标签以英文逗号分割)
appScenario=训练,推理,nlp,智能聊天助手,科研 appScenario=训练,推理,医疗,教育,科研,金融
# 框架类型(多个标签以英文逗号分割) # 框架类型(多个标签以英文逗号分割)
frameType=Pytorch,Transformers,Deepspeed frameType=Pytorch,Transformers,Deepspeed
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment