[WIP][DataLoader] Implement BucketBatchIterableDataset (#51126)

ejguan · facebook-github-bot · commit bea0519b0bbe · 2021-02-03T07:01:05.000-08:00
Summary: Pull Request resolved: #51126 BucketBatch: Get a chunk of data as a bucket, and sort the bucket by the specified key, then batching. If sort key is not specified, directly use batchIterableDS.. 1. Implement BucketBatch for bucket sampler 2. Improve BatchDS tests Test Plan: Imported from OSS Reviewed By: H-Huang Differential Revision: D26209890 Pulled By: ejguan fbshipit-source-id: 8519e2e49da158b3fe32913c8f3cadfa6f3ff1fc
diff --git a/test/test_dataset.py b/test/test_dataset.py
@@ -1,12 +1,13 @@
 import pickle
+import random
 import tempfile
 import warnings
 
 import torch
 from torch.testing._internal.common_utils import (TestCase, run_tests)
 from torch.utils.data import IterableDataset, RandomSampler
 from torch.utils.data.datasets import \
-    (CallableIterableDataset, CollateIterableDataset, BatchIterableDataset,
+    (CallableIterableDataset, CollateIterableDataset, BatchIterableDataset, BucketBatchIterableDataset,
      ListDirFilesIterableDataset, LoadFilesFromDiskIterableDataset, SamplerIterableDataset)
 from typing import List, Tuple, Dict, Any, Type
 
@@ -146,46 +147,81 @@ def _collate_fn(batch):
             self.assertEqual(x, torch.tensor(y))
 
     def test_batch_dataset(self):
-        arrs = range(10)
+        arrs = list(range(10))
         ds = IterDatasetWithLen(arrs)
         with self.assertRaises(AssertionError):
             batch_ds0 = BatchIterableDataset(ds, batch_size=0)
 
         # Default not drop the last batch
-        batch_ds1 = BatchIterableDataset(ds, batch_size=3)
+        bs = 3
+        batch_ds1 = BatchIterableDataset(ds, batch_size=bs)
         self.assertEqual(len(batch_ds1), 4)
-        batch_iter = iter(batch_ds1)
-        value = 0
-        for i in range(len(batch_ds1)):
-            batch = next(batch_iter)
-            if i == 3:
-                self.assertEqual(len(batch), 1)
-                self.assertEqual(batch, [9])
-            else:
-                self.assertEqual(len(batch), 3)
-                for x in batch:
-                    self.assertEqual(x, value)
-                    value += 1
+        for i, batch in enumerate(batch_ds1):
+            self.assertEqual(len(batch), 1 if i == 3 else bs)
+            self.assertEqual(batch, arrs[i * bs: i * bs + len(batch)])
 
         # Drop the last batch
-        batch_ds2 = BatchIterableDataset(ds, batch_size=3, drop_last=True)
-        self.assertEqual(len(batch_ds2), 3)
-        value = 0
-        for batch in batch_ds2:
-            self.assertEqual(len(batch), 3)
-            for x in batch:
-                self.assertEqual(x, value)
-                value += 1
-
-        batch_ds3 = BatchIterableDataset(ds, batch_size=2)
-        self.assertEqual(len(batch_ds3), 5)
-        batch_ds4 = BatchIterableDataset(ds, batch_size=2, drop_last=True)
-        self.assertEqual(len(batch_ds4), 5)
+        bs = 4
+        batch_ds2 = BatchIterableDataset(ds, batch_size=bs, drop_last=True)
+        self.assertEqual(len(batch_ds2), 2)
+        for i, batch in enumerate(batch_ds2):
+            self.assertEqual(len(batch), bs)
+            self.assertEqual(batch, arrs[i * bs: i * bs + len(batch)])
+
+        ds_nl = IterDatasetWithoutLen(range(10))
+        batch_ds_nl = BatchIterableDataset(ds_nl, batch_size=2)
+        with self.assertRaises(NotImplementedError):
+            len(batch_ds_nl)
 
-        ds_nolen = IterDatasetWithoutLen(arrs)
-        batch_ds_nolen = BatchIterableDataset(ds_nolen, batch_size=5)
+    def test_bucket_batch_dataset(self):
+        ds = IterDatasetWithLen(range(20))
+        with self.assertRaises(AssertionError):
+            BucketBatchIterableDataset(ds, batch_size=0)
+
+        ds_nl = IterDatasetWithoutLen(range(20))
+        bucket_ds_nl = BucketBatchIterableDataset(ds_nl, batch_size=7)
         with self.assertRaises(NotImplementedError):
-            len(batch_ds_nolen)
+            len(bucket_ds_nl)
+
+        # Test Bucket Batch without sort_key
+        def _helper(**kwargs):
+            arrs = list(range(100))
+            random.shuffle(arrs)
+            ds = IterDatasetWithLen(arrs)
+            bucket_ds = BucketBatchIterableDataset(ds, **kwargs)
+            if kwargs["sort_key"] is None:
+                # BatchDataset as reference
+                ref_ds = BatchIterableDataset(ds, batch_size=kwargs['batch_size'], drop_last=kwargs['drop_last'])
+                for batch, rbatch in zip(bucket_ds, ref_ds):
+                    self.assertEqual(batch, rbatch)
+            else:
+                bucket_size = bucket_ds.bucket_size
+                bucket_num = (len(ds) - 1) // bucket_size + 1
+                it = iter(bucket_ds)
+                for i in range(bucket_num):
+                    ref = sorted(arrs[i * bucket_size: (i + 1) * bucket_size])
+                    bucket: List = []
+                    while len(bucket) < len(ref):
+                        try:
+                            batch = next(it)
+                            bucket += batch
+                        # If drop last, stop in advance
+                        except StopIteration:
+                            break
+                    if len(bucket) != len(ref):
+                        ref = ref[:len(bucket)]
+                    # Sorted bucket
+                    self.assertEqual(bucket, ref)
+
+        _helper(batch_size=7, drop_last=False, sort_key=None)
+        _helper(batch_size=7, drop_last=True, bucket_size_mul=5, sort_key=None)
+
+        # Test Bucket Batch with sort_key
+        def _sort_fn(data):
+            return data
+
+        _helper(batch_size=7, drop_last=False, bucket_size_mul=5, sort_key=_sort_fn)
+        _helper(batch_size=7, drop_last=True, bucket_size_mul=5, sort_key=_sort_fn)
 
     def test_sampler_dataset(self):
         arrs = range(10)
diff --git a/torch/utils/data/__init__.py b/torch/utils/data/__init__.py
@@ -4,12 +4,13 @@
 from .dataset import IterableDataset as IterDataPipe
 from .distributed import DistributedSampler
 from .dataloader import DataLoader, _DatasetKind, get_worker_info
-from .datasets import (BatchIterableDataset, CallableIterableDataset, CollateIterableDataset, SamplerIterableDataset)
+from .datasets import (BatchIterableDataset, BucketBatchIterableDataset, CallableIterableDataset, CollateIterableDataset,
+                       SamplerIterableDataset)
 
 __all__ = ['Sampler', 'SequentialSampler', 'RandomSampler',
            'SubsetRandomSampler', 'WeightedRandomSampler', 'BatchSampler',
            'DistributedSampler', 'Dataset', 'IterableDataset', 'TensorDataset',
            'ConcatDataset', 'ChainDataset', 'BufferedShuffleDataset', 'Subset',
            'random_split', 'DataLoader', '_DatasetKind', 'get_worker_info',
-           'BatchIterableDataset', 'CallableIterableDataset', 'CollateIterableDataset',
-           'SamplerIterableDataset', 'IterDataPipe']
+           'BatchIterableDataset', 'BucketBatchIterableDataset', 'CallableIterableDataset',
+           'CollateIterableDataset', 'SamplerIterableDataset', 'IterDataPipe']
diff --git a/torch/utils/data/datasets/__init__.py b/torch/utils/data/datasets/__init__.py
@@ -1,8 +1,9 @@
-from .batchdataset import BatchIterableDataset
+from .batchdataset import BatchIterableDataset, BucketBatchIterableDataset
 from .callabledataset import CallableIterableDataset, CollateIterableDataset
 from .samplerdataset import SamplerIterableDataset
 from .listdirfilesdataset import ListDirFilesIterableDataset
 from .loadfilesfromdiskdataset import LoadFilesFromDiskIterableDataset
 
-__all__ = ['BatchIterableDataset', 'CallableIterableDataset', 'CollateIterableDataset',
-           'ListDirFilesIterableDataset', 'LoadFilesFromDiskIterableDataset', 'SamplerIterableDataset']
+__all__ = ['BatchIterableDataset', 'BucketBatchIterableDataset', 'CallableIterableDataset',
+           'CollateIterableDataset', 'ListDirFilesIterableDataset', 'LoadFilesFromDiskIterableDataset',
+           'SamplerIterableDataset']
diff --git a/torch/utils/data/datasets/batchdataset.py b/torch/utils/data/datasets/batchdataset.py
@@ -1,5 +1,6 @@
+import warnings
 from torch.utils.data import IterableDataset
-from typing import TypeVar, Optional, Iterator, List, Sized
+from typing import TypeVar, Optional, Iterator, List, Sized, Callable
 
 T_co = TypeVar('T_co', covariant=True)
 
@@ -55,3 +56,71 @@ def __len__(self) -> int:
                 self.length = (len(self.dataset) + self.batch_size - 1) // self.batch_size
             return self.length
         raise NotImplementedError
+
+
+class BucketBatchIterableDataset(IterableDataset[List[T_co]]):
+    r""" :class:`BucketBatchIterableDataset`.
+
+    IterableDataset to create mini-batches of data from sorted bucket. An outer
+    dimension will be added as `batch_size` if `drop_last` is set to `True`,
+    or `length % batch_size` for the last batch if `drop_last` is set to `False`.
+        args:
+        dataset: IterableDataset being batched
+        batch_size: The size of each batch
+        drop_last: Option to drop the last batch if it's not full
+        bucket_size_mul: The multiplier to specify the size of bucket
+        sort_key: Callable to specify the comparison key for sorting within bucket
+    """
+    dataset: IterableDataset[T_co]
+    batch_size: int
+    drop_last: bool
+    bucket_size_mul: int
+    sort_key: Optional[Callable]
+    length: Optional[int]
+
+    def __init__(self,
+                 dataset: IterableDataset[T_co],
+                 *,
+                 batch_size: int,
+                 drop_last: bool = False,
+                 bucket_size_mul: int = 100,
+                 sort_key: Optional[Callable] = None,
+                 ) -> None:
+        assert batch_size > 0, "Batch size is required to be larger than 0!"
+        super(BucketBatchIterableDataset, self).__init__()
+        self.dataset = dataset
+        self.batch_size = batch_size
+        self.drop_last = drop_last
+        self.bucket_size = batch_size * bucket_size_mul
+        self.sort_key = sort_key
+        if sort_key is not None and sort_key.__name__ == '<lambda>':
+            warnings.warn("Lambda function is not supported for pickle, "
+                          "please use regular python function instead.")
+        self.bucket_ds = BatchIterableDataset(dataset, batch_size=self.bucket_size, drop_last=False)
+        self.length = None
+
+    def __iter__(self) -> Iterator[List[T_co]]:
+        # Bucket without sorting remains same order, directly returns BatchDataset
+        if self.sort_key is None:
+            yield from BatchIterableDataset(self.dataset, batch_size=self.batch_size, drop_last=self.drop_last)
+        else:
+            bucket: List[T_co]
+            batch: List[T_co] = []
+            for bucket in self.bucket_ds:
+                # In-place sort within bucket
+                bucket.sort(key=self.sort_key)
+                for start in range(0, len(bucket), self.batch_size):
+                    batch = bucket[start: start + self.batch_size]
+                    if len(batch) == self.batch_size or not self.drop_last:
+                        yield batch
+
+    def __len__(self) -> int:
+        if self.length is not None:
+            return self.length
+        if isinstance(self.dataset, Sized) and len(self.dataset) >= 0:
+            if self.drop_last:
+                self.length = len(self.dataset) // self.batch_size
+            else:
+                self.length = (len(self.dataset) + self.batch_size - 1) // self.batch_size
+            return self.length
+        raise NotImplementedError