process 670 Bytes
Newer Older
wangsen's avatar
all  
wangsen committed
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
#!/bin/bash

# 指定要遍历的目录
directory=$1

# 指定输出文件
output_file=$2

# 删除旧的输出文件,如果存在的话
rm -f "$output_file"

# 遍历指定目录下的所有文件
for file in "$directory"/*; do
    # 检查文件是否是普通文件
    if [ -f "$file" ]; then
        # 将文件内容追加到输出文件中
	python3 tools/preprocess_data.py --input $file --output-prefix $output_file-$(basename $file) --tokenizer-model Meta-Llama-3-8B/tokenizer.model  --tokenizer-type Llama3Tokenizer --append-eod --workers 64 
        # 添加一个换行符,以保持jsonl格式
	echo "finished $output_file-$(basename $file)"
    fi
done