[Bart: example] drop columns that are exclusively pad_token_id… (#3400)

* trim seq_len below 1024 if there are columns full of pad_token_id * Centralize trim_batch so SummarizationDataset can use it too

[Bart: example] drop columns that are exclusively pad_token_id… (#3400)
* trim seq_len below 1024 if there are columns full of pad_token_id * Centralize trim_batch so SummarizationDataset can use it too
c10decf7 · Sam Shleifer · GitHub · 63f4d8ca · c10decf7
Unverified Commit c10decf7 authored Mar 26, 2020 by Sam Shleifer Committed by GitHub Mar 26, 2020
Show whitespace changes
Inline Side-by-side

Showing with 11 additions and 0 deletions

src/transformers/tokenization_utils.py src/transformers/tokenization_utils.py +11 -0

No files found.
--- a/src/transformers/tokenization_utils.py
+++ b/src/transformers/tokenization_utils.py
@@ -1997,3 +1997,14 @@ class PreTrainedTokenizerFast(PreTrainedTokenizer):
            files = self._tokenizer.save(folder, name=file)

        return tuple(files)
+
+
+def trim_batch(
+    input_ids, pad_token_id, attention_mask=None,
+):
+    """Remove columns that are populated exclusively by pad_token_id"""
+    keep_column_mask = input_ids.ne(pad_token_id).any(dim=0)
+    if attention_mask is None:
+        return input_ids[:, keep_column_mask]
+    else:
+        return (input_ids[:, keep_column_mask], attention_mask[:, keep_column_mask])