#FL 可以设置用 cutlass还是trition ENV=dsw # 运行环境配置开关: dsw单机训练训练,dlc表示多机训练环境 MODEL_SIZE=8B # 模型结构参数量级: 8B, 70B BATCH_SIZE=1 # 一次迭代一个数据并行内的样本数 GLOBAL_BATCH_SIZE=8 # 一次迭代多个数据并行的总样本数 LR=1e-5 # 学习率 MIN_LR=1e-6 # 最小学习率 SEQ_LEN=1024 # 序列长度 PAD_LEN=1024 # Padding长度 PR=fp16 # 训练精度: fp16, bf16, fp8 TP=1 # 模型并行度 PP=1 # 流水并行度 CP=1 # 上下文并行度 SP=true # 是否使用序列并行: true, false DO=true # 是否使用Megatron版Zero-1降显存优化器: true, false FL=false # 是否优先使用Flash Attention: true, false SFT=false # 是否执行微调训练: true, false AC=false # 激活检查点模式: sel, full, offload, false OPTIMIZER_OFFLOAD=false # 是否启用Offload optimizer: false, static, auto SAVE_INTERVAL=100000 # 保存ckpt的间隔 DATASET_PATH=/public/new-pai/data/llama3-datasets/wudao_llama3bpe_content_document # 训练数据集路径 VALID_DATASET_PATH=/public/new-pai/data/llama3-datasets/wudao_llama3bpe_content_document # 验证数据集路径 # PRETRAIN_CHECKPOINT_PATH=/public/new-pai/model/llama3-ckpts/Meta-Llama-3.1-8B # 预训练模型路径 PRETRAIN_CHECKPOINT_PATH=/public/new-pai/Pai-Megatron-Patch/examples/all_tokenizer/llama3_tokenizer/ # PRETRAIN_CHECKPOINT_PATH=/public/new-pai/Pai-Megatron-Patch/examples/llama3_1/mcore-tp2-pp1 TRAIN_TOKENS_OR_ITERS=10000 # 训练TOKEN或者Iter数 WARMUP_TOKENS_OR_ITERS=100 # 预热TOKEN或者Iter数 OUTPUT_BASEPATH=./output_mcore_llama3_1 # 训练输出日志文件路径 sh run_mcore_llama3_1-dcu.sh \ $ENV \ $MODEL_SIZE \ $BATCH_SIZE \ $GLOBAL_BATCH_SIZE \ $LR \ $MIN_LR \ $SEQ_LEN \ $PAD_LEN \ $PR \ $TP \ $PP \ $CP \ $SP \ $DO \ $FL \ $SFT \ $AC \ $OPTIMIZER_OFFLOAD \ $SAVE_INTERVAL \ $DATASET_PATH \ $VALID_DATASET_PATH \ $PRETRAIN_CHECKPOINT_PATH \ $TRAIN_TOKENS_OR_ITERS \ $WARMUP_TOKENS_OR_ITERS \ $OUTPUT_BASEPATH