README_zh.md 9.25 KB
Newer Older
chenych's avatar
chenych committed
1
2
3
[dataset_info.json](dataset_info.json) 包含了所有可用的数据集。如果您希望使用自定义数据集,请**务必**`dataset_info.json` 文件中添加*数据集描述*,并通过修改 `dataset: 数据集名称` 配置来使用数据集。

目前我们支持 **alpaca** 格式和 **sharegpt** 格式的数据集。
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
4
5
6
7
8
9

```json
"数据集名称": {
  "hf_hub_url": "Hugging Face 的数据集仓库地址(若指定,则忽略 script_url 和 file_name)",
  "ms_hub_url": "ModelScope 的数据集仓库地址(若指定,则忽略 script_url 和 file_name)",
  "script_url": "包含数据加载脚本的本地文件夹名称(若指定,则忽略 file_name)",
chenych's avatar
chenych committed
10
11
12
  "file_name": "该目录下数据集文件夹或文件的名称(若上述参数未指定,则此项必需)",
  "formatting": "数据集格式(可选,默认:alpaca,可以为 alpaca 或 sharegpt)",
  "ranking": "是否为偏好数据集(可选,默认:False)",
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
13
  "subset": "数据集子集的名称(可选,默认:None)",
chenych's avatar
chenych committed
14
  "split": "所使用的数据集切分(可选,默认:train)",
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
15
  "folder": "Hugging Face 仓库的文件夹名称(可选,默认:None)",
chenych's avatar
chenych committed
16
  "num_samples": "该数据集所使用的样本数量。(可选,默认:None)",
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
17
18
19
20
21
22
23
  "columns(可选)": {
    "prompt": "数据集代表提示词的表头名称(默认:instruction)",
    "query": "数据集代表请求的表头名称(默认:input)",
    "response": "数据集代表回答的表头名称(默认:output)",
    "history": "数据集代表历史对话的表头名称(默认:None)",
    "messages": "数据集代表消息列表的表头名称(默认:conversations)",
    "system": "数据集代表系统提示的表头名称(默认:None)",
chenych's avatar
chenych committed
24
25
26
27
28
    "tools": "数据集代表工具描述的表头名称(默认:None)",
    "images": "数据集代表图像输入的表头名称(默认:None)",
    "chosen": "数据集代表更优回答的表头名称(默认:None)",
    "rejected": "数据集代表更差回答的表头名称(默认:None)",
    "kto_tag": "数据集代表 KTO 标签的表头名称(默认:None)"
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
29
30
31
32
33
34
35
36
  },
  "tags(可选,用于 sharegpt 格式)": {
    "role_tag": "消息中代表发送者身份的键名(默认:from)",
    "content_tag": "消息中代表文本内容的键名(默认:value)",
    "user_tag": "消息中代表用户的 role_tag(默认:human)",
    "assistant_tag": "消息中代表助手的 role_tag(默认:gpt)",
    "observation_tag": "消息中代表工具返回结果的 role_tag(默认:observation)",
    "function_tag": "消息中代表工具调用的 role_tag(默认:function_call)",
chenych's avatar
chenych committed
37
    "system_tag": "消息中代表系统提示的 role_tag(默认:system,会覆盖 system column)"
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
38
39
40
41
  }
}
```

chenych's avatar
chenych committed
42
## Alpaca 格式
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
43

chenych's avatar
chenych committed
44
### 指令监督微调数据集
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
45

chenych's avatar
chenych committed
46
47
48
49
50
51
52
- [样例数据集](alpaca_zh_demo.json)

在指令监督微调时,`instruction` 列对应的内容会与 `input` 列对应的内容拼接后作为人类指令,即人类指令为 `instruction\ninput`。而 `output` 列对应的内容为模型回答。

如果指定,`system` 列对应的内容将被作为系统提示词。

`history` 列是由多个字符串二元组构成的列表,分别代表历史消息中每轮对话的指令和回答。注意在指令监督微调时,历史消息中的回答内容**也会被用于模型学习**
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
53
54
55
56

```json
[
  {
chenych's avatar
chenych committed
57
58
    "instruction": "人类指令(必填)",
    "input": "人类输入(选填)",
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
59
60
61
62
63
64
65
66
67
68
    "output": "模型回答(必填)",
    "system": "系统提示词(选填)",
    "history": [
      ["第一轮指令(选填)", "第一轮回答(选填)"],
      ["第二轮指令(选填)", "第二轮回答(选填)"]
    ]
  }
]
```

chenych's avatar
chenych committed
69
对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
70
71
72

```json
"数据集名称": {
chenych's avatar
chenych committed
73
  "file_name": "data.json",
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
74
75
76
77
78
79
80
81
82
83
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "response": "output",
    "system": "system",
    "history": "history"
  }
}
```

chenych's avatar
chenych committed
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
### 预训练数据集

- [样例数据集](c4_demo.json)

在预训练时,只有 `text` 列中的内容会用于模型学习。

```json
[
  {"text": "document"},
  {"text": "document"}
]
```

对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:

```json
"数据集名称": {
  "file_name": "data.json",
  "columns": {
    "prompt": "text"
  }
}
```

### 偏好数据集

偏好数据集用于奖励模型训练、DPO 训练和 ORPO 训练。

它需要在 `chosen` 列中提供更优的回答,并在 `rejected` 列中提供更差的回答。

```json
[
  {
    "instruction": "人类指令(必填)",
    "input": "人类输入(选填)",
    "chosen": "优质回答(必填)",
    "rejected": "劣质回答(必填)"
  }
]
```
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
124

chenych's avatar
chenych committed
125
对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
126

chenych's avatar
chenych committed
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
```json
"数据集名称": {
  "file_name": "data.json",
  "ranking": true,
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "chosen": "chosen",
    "rejected": "rejected"
  }
}
```

### KTO 数据集

- [样例数据集](kto_en_demo.json)

KTO 数据集需要额外添加一个 `kto_tag` 列,包含 bool 类型的人类反馈。

```json
[
  {
    "instruction": "人类指令(必填)",
    "input": "人类输入(选填)",
    "output": "模型回答(必填)",
    "kto_tag": "人类反馈 [true/false](必填)"
  }
]
```

对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:

```json
"数据集名称": {
  "file_name": "data.json",
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "response": "output",
    "kto_tag": "kto_tag"
  }
}
```

### 多模态数据集

- [样例数据集](mllm_demo.json)

多模态数据集需要额外添加一个 `images` 列,包含输入图像的路径。目前我们仅支持单张图像输入。

```json
[
  {
    "instruction": "人类指令(必填)",
    "input": "人类输入(选填)",
    "output": "模型回答(必填)",
    "images": [
      "图像路径(必填)"
    ]
  }
]
```
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
189

chenych's avatar
chenych committed
190
对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
191
192

```json
chenych's avatar
chenych committed
193
194
195
196
197
198
199
200
"数据集名称": {
  "file_name": "data.json",
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "response": "output",
    "images": "images"
  }
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
201
202
203
}
```

chenych's avatar
chenych committed
204
205
206
207
208
## Sharegpt 格式

### 指令监督微调数据集

- [样例数据集](glaive_toolcall_zh_demo.json)
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
209

chenych's avatar
chenych committed
210
相比 alpaca 格式的数据集,sharegpt 格式支持**更多的角色种类**,例如 human、gpt、observation、function 等等。它们构成一个对象列表呈现在 `conversations` 列中。
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
211

chenych's avatar
chenych committed
212
注意其中 human 和 observation 必须出现在奇数位置,gpt 和 function 必须出现在偶数位置。
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
213
214
215
216
217
218
219

```json
[
  {
    "conversations": [
      {
        "from": "human",
chenych's avatar
chenych committed
220
221
222
223
224
225
226
227
228
        "value": "人类指令"
      },
      {
        "from": "function_call",
        "value": "工具参数"
      },
      {
        "from": "observation",
        "value": "工具结果"
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
229
230
231
232
233
234
235
236
237
238
239
240
      },
      {
        "from": "gpt",
        "value": "模型回答"
      }
    ],
    "system": "系统提示词(选填)",
    "tools": "工具描述(选填)"
  }
]
```

chenych's avatar
chenych committed
241
对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
242
243
244

```json
"数据集名称": {
chenych's avatar
chenych committed
245
246
  "file_name": "data.json",
  "formatting": "sharegpt",
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
247
248
249
250
  "columns": {
    "messages": "conversations",
    "system": "system",
    "tools": "tools"
chenych's avatar
chenych committed
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
  }
}
```

### 偏好数据集

- [样例数据集](dpo_zh_demo.json)

Sharegpt 格式的偏好数据集同样需要在 `chosen` 列中提供更优的消息,并在 `rejected` 列中提供更差的消息。

```json
[
  {
    "conversations": [
      {
        "from": "human",
        "value": "人类指令"
      },
      {
        "from": "gpt",
        "value": "模型回答"
      },
      {
        "from": "human",
        "value": "人类指令"
      }
    ],
    "chosen": {
      "from": "gpt",
      "value": "优质回答"
    },
    "rejected": {
      "from": "gpt",
      "value": "劣质回答"
    }
  }
]
```

对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:

```json
"数据集名称": {
  "file_name": "data.json",
  "formatting": "sharegpt",
  "ranking": true,
  "columns": {
    "messages": "conversations",
    "chosen": "chosen",
    "rejected": "rejected"
  }
}
```

### OpenAI 格式

OpenAI 格式仅仅是 sharegpt 格式的一种特殊情况,其中第一条消息可能是系统提示词。

```json
[
  {
    "messages": [
      {
        "role": "system",
        "content": "系统提示词(选填)"
      },
      {
        "role": "user",
        "content": "人类指令"
      },
      {
        "role": "assistant",
        "content": "模型回答"
      }
    ]
  }
]
```

对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:

```json
"数据集名称": {
  "file_name": "data.json",
  "formatting": "sharegpt",
  "columns": {
    "messages": "messages"
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
338
339
  },
  "tags": {
chenych's avatar
chenych committed
340
341
342
343
344
    "role_tag": "role",
    "content_tag": "content",
    "user_tag": "user",
    "assistant_tag": "assistant",
    "system_tag": "system"
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
345
346
347
348
  }
}
```

chenych's avatar
chenych committed
349
Sharegpt 格式中的 KTO 数据集和多模态数据集与 alpaca 格式的类似。
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
350

chenych's avatar
chenych committed
351
预训练数据集**不支持** sharegpt 格式。