return attention mask in int32 (#13543)

5c14fcea · Patrick von Platen · GitHub · 149c833b · 5c14fcea · 5c14fcea
Unverified Commit 5c14fcea authored Sep 13, 2021 by Patrick von Platen Committed by GitHub Sep 13, 2021
2 changed files
--- a/src/transformers/models/speech_to_text/feature_extraction_speech_to_text.py
+++ b/src/transformers/models/speech_to_text/feature_extraction_speech_to_text.py
@@ -240,12 +240,12 @@ class Speech2TextFeatureExtractor(SequenceFeatureExtractor):

        attention_mask = padded_inputs.get("attention_mask")
        if attention_mask is not None:
-            padded_inputs["attention_mask"] = [np.asarray(array, dtype=np.bool) for array in attention_mask]
+            padded_inputs["attention_mask"] = [np.asarray(array, dtype=np.int32) for array in attention_mask]

        # Utterance-level cepstral mean and variance normalization
        if self.do_ceptral_normalize:
            attention_mask = (
-                np.array(attention_mask, dtype=np.bool)
+                np.array(attention_mask, dtype=np.int32)
                if self._get_padding_strategies(padding, max_length=max_length) is not PaddingStrategy.DO_NOT_PAD
                else None
            )

--- a/src/transformers/models/wav2vec2/feature_extraction_wav2vec2.py
+++ b/src/transformers/models/wav2vec2/feature_extraction_wav2vec2.py
@@ -86,7 +86,7 @@ class Wav2Vec2FeatureExtractor(SequenceFeatureExtractor):
        Every array in the list is normalized to have zero mean and unit variance
        """
        if attention_mask is not None:
-            attention_mask = np.array(attention_mask, np.bool)
+            attention_mask = np.array(attention_mask, np.int32)
            normed_input_values = []

            for vector, length in zip(input_values, attention_mask.sum(-1)):
@@ -216,7 +216,7 @@ class Wav2Vec2FeatureExtractor(SequenceFeatureExtractor):
        # convert attention_mask to correct format
        attention_mask = padded_inputs.get("attention_mask")
        if attention_mask is not None:
-            padded_inputs["attention_mask"] = [np.asarray(array, dtype=np.bool) for array in attention_mask]
+            padded_inputs["attention_mask"] = [np.asarray(array, dtype=np.int32) for array in attention_mask]

        # zero-mean and unit-variance normalization
        if self.do_normalize: