DataCollatorForTokenClassification numpy fix (#13609)

* Fix issue when labels are supplied as Numpy array instead of list * Fix issue when labels are supplied as Numpy array instead of list * Fix same issue in the `TokenClassification` data collator * Style pass

DataCollatorForTokenClassification numpy fix (#13609)
* Fix issue when labels are supplied as Numpy array instead of list * Fix issue when labels are supplied as Numpy array instead of list * Fix same issue in the `TokenClassification` data collator * Style pass
e5904168 · Matt · GitHub · 88dbbfb2 · e5904168
Unverified Commit e5904168 authored Sep 16, 2021 by Matt Committed by GitHub Sep 16, 2021
Show whitespace changes
Inline Side-by-side

Showing with 14 additions and 6 deletions

src/transformers/data/data_collator.py src/transformers/data/data_collator.py +14 -6

No files found.
--- a/src/transformers/data/data_collator.py
+++ b/src/transformers/data/data_collator.py
@@ -291,11 +291,11 @@ class DataCollatorForTokenClassification(DataCollatorMixin):
        padding_side = self.tokenizer.padding_side
        if padding_side == "right":
            batch[label_name] = [
-                label + [self.label_pad_token_id] * (sequence_length - len(label)) for label in labels
+                list(label) + [self.label_pad_token_id] * (sequence_length - len(label)) for label in labels
            ]
        else:
            batch[label_name] = [
-                [self.label_pad_token_id] * (sequence_length - len(label)) + label for label in labels
+                [self.label_pad_token_id] * (sequence_length - len(label)) + list(label) for label in labels
            ]

        batch = {k: torch.tensor(v, dtype=torch.int64) for k, v in batch.items()}
@@ -321,9 +321,13 @@ class DataCollatorForTokenClassification(DataCollatorMixin):
        sequence_length = tf.convert_to_tensor(batch["input_ids"]).shape[1]
        padding_side = self.tokenizer.padding_side
        if padding_side == "right":
-            batch["labels"] = [label + [self.label_pad_token_id] * (sequence_length - len(label)) for label in labels]
+            batch["labels"] = [
+                list(label) + [self.label_pad_token_id] * (sequence_length - len(label)) for label in labels
+            ]
        else:
-            batch["labels"] = [[self.label_pad_token_id] * (sequence_length - len(label)) + label for label in labels]
+            batch["labels"] = [
+                [self.label_pad_token_id] * (sequence_length - len(label)) + list(label) for label in labels
+            ]

        batch = {k: tf.convert_to_tensor(v, dtype=tf.int64) for k, v in batch.items()}
        return batch
@@ -348,9 +352,13 @@ class DataCollatorForTokenClassification(DataCollatorMixin):
        sequence_length = np.array(batch["input_ids"]).shape[1]
        padding_side = self.tokenizer.padding_side
        if padding_side == "right":
-            batch["labels"] = [label + [self.label_pad_token_id] * (sequence_length - len(label)) for label in labels]
+            batch["labels"] = [
+                list(label) + [self.label_pad_token_id] * (sequence_length - len(label)) for label in labels
+            ]
        else:
-            batch["labels"] = [[self.label_pad_token_id] * (sequence_length - len(label)) + label for label in labels]
+            batch["labels"] = [
+                [self.label_pad_token_id] * (sequence_length - len(label)) + list(label) for label in labels
+            ]

        batch = {k: np.array(v, dtype=np.int64) for k, v in batch.items()}
        return batch