feat: add categorical special tokens (optional), related to #10

7e451193 · Geewook Kim · GitHub · dd12dae5 · 7e451193
Unverified Commit 7e451193 authored Aug 04, 2022 by Geewook Kim Committed by GitHub Aug 04, 2022
Show whitespace changes
Inline Side-by-side

Showing with 12 additions and 0 deletions

train.py train.py +12 -0

No files found.
--- a/train.py
+++ b/train.py
@@ -61,6 +61,18 @@ def train(config):
    datasets = {"train": [], "validation": []}
    for i, dataset_name_or_path in enumerate(config.dataset_name_or_paths):
        task_name = os.path.basename(dataset_name_or_path)  # e.g., cord-v2, docvqa, rvlcdip, ...
+        
+        # add categorical special tokens (optional)
+        if task_name == "rvlcdip":
+            model_module.model.decoder.add_special_tokens([
+                "<advertisement/>", "<budget/>", "<email/>", "<file_folder/>", 
+                "<form/>", "<handwritten/>", "<invoice/>", "<letter/>", 
+                "<memo/>", "<news_article/>", "<presentation/>", "<questionnaire/>", 
+                "<resume/>", "<scientific_publication/>", "<scientific_report/>", "<specification/>"
+            ])
+        if task_name == "docvqa":
+            model_module.model.decoder.add_special_tokens(["<yes/>", "<no/>"])
+            
        for split in ["train", "validation"]:
            datasets[split].append(
                DonutDataset(