eval_math_cn.md 1.78 KB
Newer Older
Rayyyyy's avatar
Rayyyyy committed
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
# eval_math

## 数据集
**`datasets/MATH/math.txt`.** math测试集,共包含458个问题。

其中,“[SEP]”之前的内容是原始问题,“[SEP]”之后的内容是该问题的标准答案。

## 评测

### 说明
**`examples/eval_math_2x32B.sh`.** 运行该程序即可获得模型在math数据集上的推理结果。

代码中的变量设置如下:

| 变量名            | 解释          |
| ------------------- | --------------------------------------------- |
| `CHECKPOINT_PATH`    | 待评测checkpoint的路径 |
| `TOKENIZER_MODEL_PATH` | tokenizer的路径          |
| `MATH_DATA`    | 待测试数据集的路径       |
| `OUTPUT_PATH`    | 推理结果的保存路径         |

### 运行

运行以下命令获得推理结果:
```
bash -x examples/eval_math_2x32B.sh
```

### 结果
评测结果将保存在 `OUTPUT_PATH`中。其中,“[SEP]”之前的内容为原始问题,“[SEP]”之后的内容是模型对该问题的解析。

## 准确率
### 说明
**`tasks/MATH/score_math.py`.** 运行该程序即可获得math评测结果的准确率。

代码中的变量设置如下:

| 变量名称               | 说明          |
| ------------------- | --------------------------------------------- |
| `origin_file_path`  | 测试集的保存路径               |
| `eval_file_path`    | 评测结果文件的保存路径       |
| `txt_eval_res_dir`  | 准确率评判结果的保存路径,以"true"结尾的文件中为正确结果,以"false"结尾的文件中为错误结果。 |

### 运行
执行以下命令以评估模型在测试集上的准确率:
```
python score_math.py
```
### 结果
“Number of correct answers”和“Number of incorrect answers”分别表示回答正确答案数和回答错误答案数,“accuracy”表示准确率。