修复tool

d0d55509 · hepj987 · 6bd15ea7 · d0d55509 · d0d55509 · d0d55509
Commit d0d55509 authored Sep 28, 2023 by hepj987
7 changed files
--- a/README.md
+++ b/README.md
@@ -178,16 +178,6 @@ mpirun -np 1 run-inf.sh
 --num-samples			生成样本个数
 ```
-## 应用场景
-### 算法类别
-`文本生成`
-### 热点应用行业
-`互联网`
 ## result
 16B模型训练loss：
@@ -208,6 +198,16 @@ mpirun -np 1 run-inf.sh
 ![image-20230524143830580](image-gpt-loss2.png)
+## 应用场景
+### 算法类别
+`文本生成`
+### 热点应用行业
+`互联网`
 ## 源码仓库及问题反馈
 https://developer.hpccube.com/codes/modelzoo/gpt2-pytorch/

--- a/model.properties
+++ b/model.properties
@@ -5,6 +5,6 @@ modelName=gpt2_pytorch
 # 模型描述
 modelDescription=基于Pytorch训练框架的gpt2模型
 # 应用场景
-appScenario=训练,推理,train,inference,nlp,智能聊天助手
+appScenario=训练,推理,文本生成,互联网
 # 框架类型
 frameType=Pytorch,Deepspeed
--- a/mpi-run-16B-fp16.sh
+++ b/mpi-run-16B-fp16.sh
@@ -7,6 +7,6 @@ np=$(($np*8))
 nodename=$(cat $hostfile |sed -n "1p")
 dist_url=`echo $nodename | awk '{print $1}'`
 which mpirun
-mpirun -np $np --allow-run-as-root --hostfile hostfile --bind-to none --mca btl_tcp_if_include $dist_url single-16B-fp16.sh
+mpirun -np $np --allow-run-as-root --hostfile $hostfile --bind-to none --mca btl_tcp_if_include $dist_url single-16B-fp16.sh $dist_url
 echo "END TIME: $(date)"
--- a/mpi-run-16B.sh
+++ b/mpi-run-16B.sh
@@ -7,6 +7,6 @@ np=$(($np*8))
 nodename=$(cat $hostfile |sed -n "1p")
 dist_url=`echo $nodename | awk '{print $1}'`
 which mpirun
-mpirun -np $np --allow-run-as-root --hostfile hostfile --bind-to none --mca btl_tcp_if_include $dist_url single-16B.sh
+mpirun -np $np --allow-run-as-root --hostfile $hostfile --bind-to none --mca btl_tcp_if_include $dist_url single-16B.sh $dist_url
 echo "END TIME: $(date)"
--- a/single-16B-fp16.sh
+++ b/single-16B-fp16.sh
@@ -53,7 +53,7 @@ GPT_ARGS=" \
    --max-position-embeddings $SEQ_LEN \
    --micro-batch-size $MICRO_BATCH_SIZE \
    --global-batch-size $GLOBAL_BATCH_SIZE \
-    --train_iters 7000 \
+    --train-iters 7000 \
    --loss-scale 12 \
    --vocab-file gpt2-vocab.json \
    --merge-file gpt2-merges.txt \

--- a/single-16B.sh
+++ b/single-16B.sh
@@ -53,7 +53,7 @@ GPT_ARGS=" \
    --max-position-embeddings $SEQ_LEN \
    --micro-batch-size $MICRO_BATCH_SIZE \
    --global-batch-size $GLOBAL_BATCH_SIZE \
-    --train_iters 7000 \
+    --train-iters 7000 \
    --loss-scale 12 \
    --vocab-file gpt2-vocab.json \
    --merge-file gpt2-merges.txt \

--- a/tools/convert_checkpoint/deepspeed_to_megatron.py
+++ b/tools/convert_checkpoint/deepspeed_to_megatron.py
@@ -4,8 +4,10 @@ import argparse
 import os
 import torch
 from collections import OrderedDict
-from .deepspeed_checkpoint import ARGS_KEY, DeepSpeedCheckpoint
+from deepspeed.checkpoint.deepspeed_checkpoint import (
+    ARGS_KEY,
+    DeepSpeedCheckpoint,
+)
 MODEL_KEY = 'model'
 ARGS_KEY = 'args'
 LANGUGAGE_MODEL_KEY = 'language_model'