Improve init speed of TokenBlockDataset and EpochBatchIterator

Summary: Pull Request resolved: https://github.com/pytorch/fairseq/pull/704 Differential Revision: D15221549 Pulled By: myleott fbshipit-source-id: b0021acdc2d7792ce51421f1432e1f2bd8218f7b

Improve init speed of TokenBlockDataset and EpochBatchIterator
Summary: Pull Request resolved: https://github.com/pytorch/fairseq/pull/704 Differential Revision: D15221549 Pulled By: myleott fbshipit-source-id: b0021acdc2d7792ce51421f1432e1f2bd8218f7b
e4edf27a · Myle Ott · Facebook Github Bot · 8d9063fe · e4edf27a · e4edf27a
Commit e4edf27a authored May 07, 2019 by Myle Ott Committed by Facebook Github Bot May 07, 2019
4 changed files
--- a/fairseq/data/iterators.py
+++ b/fairseq/data/iterators.py
@@ -26,11 +26,11 @@ class CountingIterator(object):
        count (int): number of elements consumed from this iterator
    """
-    def __init__(self, iterable):
+    def __init__(self, iterable, start=0):
        self.iterable = iterable
-        self.count = 0
+        self.count = start
        self.itr = iter(self)
-        self.len = len(iterable)
+        self.len = start + len(iterable)
    def __len__(self):
        return self.len
@@ -50,7 +50,6 @@ class CountingIterator(object):
    def skip(self, num_to_skip):
        """Fast-forward the iterator by skipping *num_to_skip* elements."""
        next(itertools.islice(self.itr, num_to_skip, num_to_skip), None)
-        self.len -= num_to_skip
        return self
@@ -149,11 +148,13 @@ class EpochBatchIterator(object):
        itr_pos = state_dict.get('iterations_in_epoch', 0)
        if itr_pos > 0:
            # fast-forward epoch iterator
-            itr = self._get_iterator_for_epoch(self.epoch, state_dict.get('shuffle', True))
+            self._next_epoch_itr = self._get_iterator_for_epoch(
-            if itr_pos < len(itr):
+                self.epoch,
-                self._next_epoch_itr = itr.skip(itr_pos)
+                shuffle=state_dict.get('shuffle', True),
+                offset=itr_pos,
+            )
-    def _get_iterator_for_epoch(self, epoch, shuffle, fix_batches_to_gpus=False):
+    def _get_iterator_for_epoch(self, epoch, shuffle, fix_batches_to_gpus=False, offset=0):
        def shuffle_batches(batches, seed):
            # set seed based on the seed and epoch number so that we get
@@ -169,25 +170,33 @@ class EpochBatchIterator(object):
                batches = shuffle_batches(list(batches), self.seed + epoch)
            batches = list(ShardedIterator(
-                batches, self.num_shards, self.shard_id, fill_value=[]))
+                batches, self.num_shards, self.shard_id, fill_value=[]
+            ))
            self.dataset.prefetch([i for s in batches for i in s])
            if shuffle and fix_batches_to_gpus:
                batches = shuffle_batches(batches, self.seed + epoch + self.shard_id)
        else:
            if shuffle:
                batches = shuffle_batches(list(self.frozen_batches), self.seed + epoch)
            else:
                batches = self.frozen_batches
-            batches = ShardedIterator(batches, self.num_shards, self.shard_id, fill_value=[])
+            batches = list(ShardedIterator(
+                batches, self.num_shards, self.shard_id, fill_value=[]
-        return CountingIterator(torch.utils.data.DataLoader(
+            ))
-            self.dataset,
-            collate_fn=self.collate_fn,
+        if offset > 0 and offset >= len(batches):
-            batch_sampler=batches,
+            return None
-            num_workers=self.num_workers,
-        ))
+        return CountingIterator(
+            torch.utils.data.DataLoader(
+                self.dataset,
+                collate_fn=self.collate_fn,
+                batch_sampler=batches[offset:],
+                num_workers=self.num_workers,
+            ),
+            start=offset,
+        )
 class GroupedIterator(object):

--- a/fairseq/data/token_block_dataset.py
+++ b/fairseq/data/token_block_dataset.py
@@ -67,38 +67,50 @@ class TokenBlockDataset(FairseqDataset):
                self.slice_indices.append((tok_idx, tok_idx + curr_size))
        elif break_mode == 'eos':
            self.slice_indices = np.empty((len(sizes), 2), dtype=int)
-            curr = 0
+            if not torch.is_tensor(sizes):
-            for i, sz in enumerate(sizes):
+                sizes = torch.tensor(sizes)
-                self.slice_indices[i] = (curr, curr + sz)
+            cumsum = torch.cumsum(sizes, dim=0)
-                curr += sz
+            self.slice_indices[0, 1] = sizes[0]
+            self.slice_indices[1:] = cumsum.unfold(0, 2, 1)
        else:
            raise ValueError('Invalid break_mode: ' + break_mode)
-        self.sizes = np.array([e - s for s, e in self.slice_indices])
        self.slice_indices = np.array(self.slice_indices, dtype=int)
+        self.sizes = self.slice_indices[:, 1] - self.slice_indices[:, 0]
        # build index mapping block indices to the underlying dataset indices
-        self.block_to_dataset_index = np.empty((len(self.slice_indices), 3), dtype=int)
+        if break_mode == 'eos':
-        ds_idx, ds_remaining = -1, 0
+            # much faster version for eos break mode
-        for i, (s, e) in enumerate(self.slice_indices):
+            self.block_to_dataset_index = np.stack(
-            to_consume = e - s
+                [
-            if ds_remaining == 0:
+                    np.arange(len(sizes)),  # starting index in dataset
-                ds_idx += 1
+                    np.zeros(len(sizes), dtype=np.long),  # starting offset within starting index
-                ds_remaining = sizes[ds_idx]
+                    np.arange(len(sizes))  # ending index in dataset
-            start_ds_idx = ds_idx
+                ],
-            start_offset = sizes[ds_idx] - ds_remaining
+                1,
-            while to_consume > ds_remaining:
-                to_consume -= ds_remaining
-                ds_idx += 1
-                ds_remaining = sizes[ds_idx]
-            ds_remaining -= to_consume
-            self.block_to_dataset_index[i] = (
-                start_ds_idx,  # starting index in dataset
-                start_offset,  # starting offset within starting index
-                ds_idx,  # ending index in dataset
            )
-        assert ds_remaining == 0
+        else:
-        assert ds_idx == len(self.dataset) - 1
+            self.block_to_dataset_index = np.empty((len(self.slice_indices), 3), dtype=int)
+            ds_idx, ds_remaining = -1, 0
+            for i, (s, e) in enumerate(self.slice_indices):
+                to_consume = e - s
+                if ds_remaining == 0:
+                    ds_idx += 1
+                    ds_remaining = sizes[ds_idx]
+                start_ds_idx = ds_idx
+                start_offset = sizes[ds_idx] - ds_remaining
+                while to_consume > ds_remaining:
+                    to_consume -= ds_remaining
+                    ds_idx += 1
+                    ds_remaining = sizes[ds_idx]
+                ds_remaining -= to_consume
+                self.block_to_dataset_index[i] = (
+                    start_ds_idx,  # starting index in dataset
+                    start_offset,  # starting offset within starting index
+                    ds_idx,  # ending index in dataset
+                )
+            assert ds_remaining == 0
+            assert ds_idx == len(self.dataset) - 1
    def __getitem__(self, index):
        start_ds_idx, start_offset, end_ds_idx = self.block_to_dataset_index[index]

--- a/tests/test_token_block_dataset.py
+++ b/tests/test_token_block_dataset.py
@@ -23,9 +23,9 @@ class TestTokenBlockDataset(unittest.TestCase):
    def test_eos_break_mode(self):
        data = [
-            torch.LongTensor([5, 4, 3, 2, 1]),
+            torch.tensor([5, 4, 3, 2, 1], dtype=torch.long),
-            torch.LongTensor([1]),  # this should be filtered
+            torch.tensor([1], dtype=torch.long),
-            torch.LongTensor([8, 7, 6, 1]),
+            torch.tensor([8, 7, 6, 1], dtype=torch.long),
        ]
        ds = self._build_dataset(data, block_size=None, pad=0, eos=1, break_mode='eos')
        self.assertEqual(ds[0].tolist(), [5, 4, 3, 2, 1])
@@ -33,9 +33,9 @@ class TestTokenBlockDataset(unittest.TestCase):
        self.assertEqual(ds[2].tolist(), [8, 7, 6, 1])
        data = [
-            torch.LongTensor([5, 4, 3, 2, 1]),
+            torch.tensor([5, 4, 3, 2, 1], dtype=torch.long),
-            torch.LongTensor([8, 7, 6, 1]),
+            torch.tensor([8, 7, 6, 1], dtype=torch.long),
-            torch.LongTensor([1]),  # this should be filtered
+            torch.tensor([1], dtype=torch.long),
        ]
        ds = self._build_dataset(data, block_size=None, pad=0, eos=1, break_mode='eos')
        self.assertEqual(ds[0].tolist(), [5, 4, 3, 2, 1])
@@ -44,9 +44,9 @@ class TestTokenBlockDataset(unittest.TestCase):
    def test_block_break_mode(self):
        data = [
-            torch.LongTensor([5, 4, 3, 2, 1]),
+            torch.tensor([5, 4, 3, 2, 1], dtype=torch.long),
-            torch.LongTensor([8, 7, 6, 1]),
+            torch.tensor([8, 7, 6, 1], dtype=torch.long),
-            torch.LongTensor([9, 1]),
+            torch.tensor([9, 1], dtype=torch.long),
        ]
        ds = self._build_dataset(data, block_size=3, pad=0, eos=1, break_mode='none')
        self.assertEqual(ds[0].tolist(), [5, 4, 3])
@@ -56,19 +56,19 @@ class TestTokenBlockDataset(unittest.TestCase):
    def test_complete_break_mode(self):
        data = [
-            torch.LongTensor([5, 4, 3, 2, 1]),
+            torch.tensor([5, 4, 3, 2, 1], dtype=torch.long),
-            torch.LongTensor([8, 7, 6, 1]),
+            torch.tensor([8, 7, 6, 1], dtype=torch.long),
-            torch.LongTensor([9, 1]),
+            torch.tensor([9, 1], dtype=torch.long),
        ]
        ds = self._build_dataset(data, block_size=6, pad=0, eos=1, break_mode='complete')
        self.assertEqual(ds[0].tolist(), [5, 4, 3, 2, 1])
        self.assertEqual(ds[1].tolist(), [8, 7, 6, 1, 9, 1])
        data = [
-            torch.LongTensor([4, 3, 2, 1]),
+            torch.tensor([4, 3, 2, 1], dtype=torch.long),
-            torch.LongTensor([5, 1]),
+            torch.tensor([5, 1], dtype=torch.long),
-            torch.LongTensor([1]),
+            torch.tensor([1], dtype=torch.long),
-            torch.LongTensor([6, 1]),
+            torch.tensor([6, 1], dtype=torch.long),
        ]
        ds = self._build_dataset(data, block_size=3, pad=0, eos=1, break_mode='complete')
        self.assertEqual(ds[0].tolist(), [4, 3, 2, 1])

--- a/tests/test_train.py
+++ b/tests/test_train.py
@@ -85,6 +85,18 @@ class TestLoadCheckpoint(unittest.TestCase):
            self.assertEqual(next(itr)['net_input']['src_tokens'][0].item(), 50)
            self.assertEqual(epoch_itr.iterations_in_epoch, 51)
+            for _ in range(150 - 52):
+                next(itr)
+            self.assertEqual(epoch_itr.iterations_in_epoch, 149)
+            self.assertTrue(itr.has_next())
+            next(itr)
+            self.assertFalse(itr.has_next())
+            itr = epoch_itr.next_epoch_itr(shuffle=False)
+            self.assertTrue(itr.has_next())
+            self.assertEqual(epoch_itr.epoch, 3)
+            self.assertEqual(epoch_itr.iterations_in_epoch, 0)
    def test_load_full_checkpoint(self):
        with contextlib.redirect_stdout(StringIO()):
            trainer, epoch_itr = get_trainer_and_epoch_itr(2, 150, 300, 150)