README_zh.md 10.6 KB
Newer Older
chenych's avatar
chenych committed
1
2
3
[dataset_info.json](dataset_info.json) 包含了所有可用的数据集。如果您希望使用自定义数据集,请**务必**`dataset_info.json` 文件中添加*数据集描述*,并通过修改 `dataset: 数据集名称` 配置来使用数据集。

目前我们支持 **alpaca** 格式和 **sharegpt** 格式的数据集。
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
4
5
6
7
8
9

```json
"数据集名称": {
  "hf_hub_url": "Hugging Face 的数据集仓库地址(若指定,则忽略 script_url 和 file_name)",
  "ms_hub_url": "ModelScope 的数据集仓库地址(若指定,则忽略 script_url 和 file_name)",
  "script_url": "包含数据加载脚本的本地文件夹名称(若指定,则忽略 file_name)",
chenych's avatar
chenych committed
10
11
12
  "file_name": "该目录下数据集文件夹或文件的名称(若上述参数未指定,则此项必需)",
  "formatting": "数据集格式(可选,默认:alpaca,可以为 alpaca 或 sharegpt)",
  "ranking": "是否为偏好数据集(可选,默认:False)",
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
13
  "subset": "数据集子集的名称(可选,默认:None)",
chenych's avatar
chenych committed
14
  "split": "所使用的数据集切分(可选,默认:train)",
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
15
  "folder": "Hugging Face 仓库的文件夹名称(可选,默认:None)",
chenych's avatar
chenych committed
16
  "num_samples": "该数据集所使用的样本数量。(可选,默认:None)",
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
17
18
19
20
21
22
23
  "columns(可选)": {
    "prompt": "数据集代表提示词的表头名称(默认:instruction)",
    "query": "数据集代表请求的表头名称(默认:input)",
    "response": "数据集代表回答的表头名称(默认:output)",
    "history": "数据集代表历史对话的表头名称(默认:None)",
    "messages": "数据集代表消息列表的表头名称(默认:conversations)",
    "system": "数据集代表系统提示的表头名称(默认:None)",
chenych's avatar
chenych committed
24
25
    "tools": "数据集代表工具描述的表头名称(默认:None)",
    "images": "数据集代表图像输入的表头名称(默认:None)",
luopl's avatar
luopl committed
26
    "videos": "数据集代表视频输入的表头名称(默认:None)",
chenych's avatar
chenych committed
27
28
29
    "chosen": "数据集代表更优回答的表头名称(默认:None)",
    "rejected": "数据集代表更差回答的表头名称(默认:None)",
    "kto_tag": "数据集代表 KTO 标签的表头名称(默认:None)"
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
30
31
32
33
34
35
36
37
  },
  "tags(可选,用于 sharegpt 格式)": {
    "role_tag": "消息中代表发送者身份的键名(默认:from)",
    "content_tag": "消息中代表文本内容的键名(默认:value)",
    "user_tag": "消息中代表用户的 role_tag(默认:human)",
    "assistant_tag": "消息中代表助手的 role_tag(默认:gpt)",
    "observation_tag": "消息中代表工具返回结果的 role_tag(默认:observation)",
    "function_tag": "消息中代表工具调用的 role_tag(默认:function_call)",
chenych's avatar
chenych committed
38
    "system_tag": "消息中代表系统提示的 role_tag(默认:system,会覆盖 system column)"
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
39
40
41
42
  }
}
```

chenych's avatar
chenych committed
43
## Alpaca 格式
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
44

chenych's avatar
chenych committed
45
### 指令监督微调数据集
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
46

chenych's avatar
chenych committed
47
48
49
50
51
52
53
- [样例数据集](alpaca_zh_demo.json)

在指令监督微调时,`instruction` 列对应的内容会与 `input` 列对应的内容拼接后作为人类指令,即人类指令为 `instruction\ninput`。而 `output` 列对应的内容为模型回答。

如果指定,`system` 列对应的内容将被作为系统提示词。

`history` 列是由多个字符串二元组构成的列表,分别代表历史消息中每轮对话的指令和回答。注意在指令监督微调时,历史消息中的回答内容**也会被用于模型学习**
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
54
55
56
57

```json
[
  {
chenych's avatar
chenych committed
58
59
    "instruction": "人类指令(必填)",
    "input": "人类输入(选填)",
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
60
61
62
63
64
65
66
67
68
69
    "output": "模型回答(必填)",
    "system": "系统提示词(选填)",
    "history": [
      ["第一轮指令(选填)", "第一轮回答(选填)"],
      ["第二轮指令(选填)", "第二轮回答(选填)"]
    ]
  }
]
```

chenych's avatar
chenych committed
70
对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
71
72
73

```json
"数据集名称": {
chenych's avatar
chenych committed
74
  "file_name": "data.json",
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
75
76
77
78
79
80
81
82
83
84
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "response": "output",
    "system": "system",
    "history": "history"
  }
}
```

chenych's avatar
chenych committed
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
### 预训练数据集

- [样例数据集](c4_demo.json)

在预训练时,只有 `text` 列中的内容会用于模型学习。

```json
[
  {"text": "document"},
  {"text": "document"}
]
```

对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:

```json
"数据集名称": {
  "file_name": "data.json",
  "columns": {
    "prompt": "text"
  }
}
```

### 偏好数据集

luopl's avatar
luopl committed
111
偏好数据集用于奖励模型训练、DPO 训练、ORPO 训练和 SimPO 训练。
chenych's avatar
chenych committed
112
113
114
115
116
117
118
119
120
121
122
123
124

它需要在 `chosen` 列中提供更优的回答,并在 `rejected` 列中提供更差的回答。

```json
[
  {
    "instruction": "人类指令(必填)",
    "input": "人类输入(选填)",
    "chosen": "优质回答(必填)",
    "rejected": "劣质回答(必填)"
  }
]
```
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
125

chenych's avatar
chenych committed
126
对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
127

chenych's avatar
chenych committed
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
```json
"数据集名称": {
  "file_name": "data.json",
  "ranking": true,
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "chosen": "chosen",
    "rejected": "rejected"
  }
}
```

### KTO 数据集

luopl's avatar
luopl committed
143
KTO 数据集需要提供额外的 `kto_tag` 列。详情请参阅 [sharegpt](#sharegpt-格式)
chenych's avatar
chenych committed
144

luopl's avatar
luopl committed
145
### 多模态图像数据集
chenych's avatar
chenych committed
146

luopl's avatar
luopl committed
147
多模态图像数据集需要提供额外的 `images` 列。详情请参阅 [sharegpt](#sharegpt-格式)
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
148

luopl's avatar
luopl committed
149
### 多模态视频数据集
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
150

luopl's avatar
luopl committed
151
多模态视频数据集需要提供额外的 `videos` 列。详情请参阅 [sharegpt](#sharegpt-格式)
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
152

chenych's avatar
chenych committed
153
154
155
156
157
## Sharegpt 格式

### 指令监督微调数据集

- [样例数据集](glaive_toolcall_zh_demo.json)
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
158

chenych's avatar
chenych committed
159
相比 alpaca 格式的数据集,sharegpt 格式支持**更多的角色种类**,例如 human、gpt、observation、function 等等。它们构成一个对象列表呈现在 `conversations` 列中。
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
160

chenych's avatar
chenych committed
161
注意其中 human 和 observation 必须出现在奇数位置,gpt 和 function 必须出现在偶数位置。
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
162
163
164
165
166
167
168

```json
[
  {
    "conversations": [
      {
        "from": "human",
chenych's avatar
chenych committed
169
170
171
172
173
174
175
176
177
        "value": "人类指令"
      },
      {
        "from": "function_call",
        "value": "工具参数"
      },
      {
        "from": "observation",
        "value": "工具结果"
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
178
179
180
181
182
183
184
185
186
187
188
189
      },
      {
        "from": "gpt",
        "value": "模型回答"
      }
    ],
    "system": "系统提示词(选填)",
    "tools": "工具描述(选填)"
  }
]
```

chenych's avatar
chenych committed
190
对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
191
192
193

```json
"数据集名称": {
chenych's avatar
chenych committed
194
195
  "file_name": "data.json",
  "formatting": "sharegpt",
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
196
197
198
199
  "columns": {
    "messages": "conversations",
    "system": "system",
    "tools": "tools"
chenych's avatar
chenych committed
200
201
202
203
  }
}
```

luopl's avatar
luopl committed
204
205
206
207
### 预训练数据集

尚不支持,请使用 [alpaca](#alpaca-格式) 格式。

chenych's avatar
chenych committed
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
### 偏好数据集

- [样例数据集](dpo_zh_demo.json)

Sharegpt 格式的偏好数据集同样需要在 `chosen` 列中提供更优的消息,并在 `rejected` 列中提供更差的消息。

```json
[
  {
    "conversations": [
      {
        "from": "human",
        "value": "人类指令"
      },
      {
        "from": "gpt",
        "value": "模型回答"
      },
      {
        "from": "human",
        "value": "人类指令"
      }
    ],
    "chosen": {
      "from": "gpt",
      "value": "优质回答"
    },
    "rejected": {
      "from": "gpt",
      "value": "劣质回答"
    }
  }
]
```

对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:

```json
"数据集名称": {
  "file_name": "data.json",
  "formatting": "sharegpt",
  "ranking": true,
  "columns": {
    "messages": "conversations",
    "chosen": "chosen",
    "rejected": "rejected"
  }
}
```

luopl's avatar
luopl committed
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
### KTO 数据集

- [样例数据集](kto_en_demo.json)

KTO 数据集需要额外添加一个 `kto_tag` 列,包含 bool 类型的人类反馈。

```json
[
  {
    "conversations": [
      {
        "from": "human",
        "value": "人类指令"
      },
      {
        "from": "gpt",
        "value": "模型回答"
      }
    ],
    "kto_tag": "人类反馈 [true/false](必填)"
  }
]
```

对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:

```json
"数据集名称": {
  "file_name": "data.json",
  "formatting": "sharegpt",
  "columns": {
    "messages": "conversations",
    "kto_tag": "kto_tag"
  }
}
```

### 多模态图像数据集

- [样例数据集](mllm_demo.json)

多模态图像数据集需要额外添加一个 `images` 列,包含输入图像的路径。

注意图片的数量必须与文本中所有 `<image>` 标记的数量严格一致。

```json
[
  {
    "conversations": [
      {
        "from": "human",
        "value": "<image>人类指令"
      },
      {
        "from": "gpt",
        "value": "模型回答"
      }
    ],
    "images": [
      "图像路径(必填)"
    ]
  }
]
```

对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:

```json
"数据集名称": {
  "file_name": "data.json",
  "formatting": "sharegpt",
  "columns": {
    "messages": "conversations",
    "images": "images"
  }
}
```

### 多模态视频数据集

- [样例数据集](mllm_video_demo.json)

多模态视频数据集需要额外添加一个 `videos` 列,包含输入视频的路径。

注意视频的数量必须与文本中所有 `<video>` 标记的数量严格一致。

```json
[
  {
    "conversations": [
      {
        "from": "human",
        "value": "<video>人类指令"
      },
      {
        "from": "gpt",
        "value": "模型回答"
      }
    ],
    "videos": [
      "视频路径(必填)"
    ]
  }
]
```

对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:

```json
"数据集名称": {
  "file_name": "data.json",
  "formatting": "sharegpt",
  "columns": {
    "messages": "conversations",
    "videos": "videos"
  }
}
```

chenych's avatar
chenych committed
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
### OpenAI 格式

OpenAI 格式仅仅是 sharegpt 格式的一种特殊情况,其中第一条消息可能是系统提示词。

```json
[
  {
    "messages": [
      {
        "role": "system",
        "content": "系统提示词(选填)"
      },
      {
        "role": "user",
        "content": "人类指令"
      },
      {
        "role": "assistant",
        "content": "模型回答"
      }
    ]
  }
]
```

对于上述格式的数据,`dataset_info.json` 中的*数据集描述*应为:

```json
"数据集名称": {
  "file_name": "data.json",
  "formatting": "sharegpt",
  "columns": {
    "messages": "messages"
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
410
411
  },
  "tags": {
chenych's avatar
chenych committed
412
413
414
415
416
    "role_tag": "role",
    "content_tag": "content",
    "user_tag": "user",
    "assistant_tag": "assistant",
    "system_tag": "system"
Rayyyyy's avatar
V0.6.3  
Rayyyyy committed
417
418
419
  }
}
```