CoCalc -- basic

GitHub Repository: jantic/deoldify
Path: blob/master/fastai/basic_data.py
⁸⁴⁰ views
1
"`fastai.data` loads and manages datasets with `DataBunch`"
2
from .torch_core import *
3
from torch.utils.data.dataloader import default_collate
4

5
DatasetType = Enum('DatasetType', 'Train Valid Test Single Fix')
6
__all__ = ['DataBunch', 'DeviceDataLoader', 'DatasetType', 'load_data']
7

8
old_dl_init = torch.utils.data.DataLoader.__init__
9

10
def intercept_args(self, dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None,
11
                 num_workers=0, collate_fn=default_collate, pin_memory=True, drop_last=False,
12
                 timeout=0, worker_init_fn=None):
13
    self.init_kwargs = {'batch_size':batch_size, 'shuffle':shuffle, 'sampler':sampler, 'batch_sampler':batch_sampler,
14
                        'num_workers':num_workers, 'collate_fn':collate_fn, 'pin_memory':pin_memory,
15
                        'drop_last': drop_last, 'timeout':timeout, 'worker_init_fn':worker_init_fn}
16
    old_dl_init(self, dataset, **self.init_kwargs)
17

18
torch.utils.data.DataLoader.__init__ = intercept_args
19

20
def DataLoader___getattr__(dl, k:str)->Any: return getattr(dl.dataset, k)
21
DataLoader.__getattr__ = DataLoader___getattr__
22

23
def DataLoader___setstate__(dl, data:Any): dl.__dict__.update(data)
24
DataLoader.__setstate__ = DataLoader___setstate__
25

26
@dataclass
27
class DeviceDataLoader():
28
    "Bind a `DataLoader` to a `torch.device`."
29
    dl: DataLoader
30
    device: torch.device
31
    tfms: List[Callable]=None
32
    collate_fn: Callable=data_collate
33
    def __post_init__(self):
34
        self.dl.collate_fn=self.collate_fn
35
        self.tfms = listify(self.tfms)
36

37
    def __len__(self)->int: return len(self.dl)
38
    def __getattr__(self,k:str)->Any: return getattr(self.dl, k)
39
    def __setstate__(self,data:Any): self.__dict__.update(data)
40

41
    @property
42
    def batch_size(self):   return self.dl.batch_size
43
    @batch_size.setter
44
    def batch_size(self,v):
45
        new_kwargs = {**self.dl.init_kwargs, 'batch_size':v, 'collate_fn':self.collate_fn}
46
        self.dl = self.dl.__class__(self.dl.dataset, **new_kwargs)
47
        if hasattr(self.dl.dataset, 'bs'): self.dl.dataset.bs = v
48

49
    @property
50
    def num_workers(self):   return self.dl.num_workers
51
    @num_workers.setter
52
    def num_workers(self,v): self.dl.num_workers = v
53

54
    def add_tfm(self,tfm:Callable)->None:
55
        "Add `tfm` to `self.tfms`."
56
        self.tfms.append(tfm)
57
    def remove_tfm(self,tfm:Callable)->None:
58
        "Remove `tfm` from `self.tfms`."
59
        if tfm in self.tfms: self.tfms.remove(tfm)
60

61
    def new(self, **kwargs):
62
        "Create a new copy of `self` with `kwargs` replacing current values."
63
        new_kwargs = {**self.dl.init_kwargs, **kwargs}
64
        return DeviceDataLoader(self.dl.__class__(self.dl.dataset, **new_kwargs), self.device, self.tfms,
65
                                self.collate_fn)
66

67
    def proc_batch(self,b:Tensor)->Tensor:
68
        "Process batch `b` of `TensorImage`."
69
        b = to_device(b, self.device)
70
        for f in listify(self.tfms): b = f(b)
71
        return b
72

73
    def __iter__(self):
74
        "Process and returns items from `DataLoader`."
75
        for b in self.dl: yield self.proc_batch(b)
76

77
    @classmethod
78
    def create(cls, dataset:Dataset, bs:int=64, shuffle:bool=False, device:torch.device=defaults.device,
79
               tfms:Collection[Callable]=tfms, num_workers:int=defaults.cpus, collate_fn:Callable=data_collate, **kwargs:Any):
80
        "Create DeviceDataLoader from `dataset` with `bs` and `shuffle`: process using `num_workers`."
81
        return cls(DataLoader(dataset, batch_size=bs, shuffle=shuffle, num_workers=num_workers, **kwargs),
82
                   device=device, tfms=tfms, collate_fn=collate_fn)
83

84
class DataBunch():
85
    "Bind `train_dl`,`valid_dl` and `test_dl` in a data object."
86

87
    def __init__(self, train_dl:DataLoader, valid_dl:DataLoader, fix_dl:DataLoader=None, test_dl:Optional[DataLoader]=None,
88
                 device:torch.device=None, dl_tfms:Optional[Collection[Callable]]=None, path:PathOrStr='.',
89
                 collate_fn:Callable=data_collate, no_check:bool=False):
90
        self.dl_tfms = listify(dl_tfms)
91
        self.device = defaults.device if device is None else device
92
        assert not isinstance(train_dl,DeviceDataLoader)
93
        def _create_dl(dl, **kwargs):
94
            if dl is None: return None
95
            return DeviceDataLoader(dl, self.device, self.dl_tfms, collate_fn, **kwargs)
96
        self.train_dl,self.valid_dl,self.fix_dl,self.test_dl = map(_create_dl, [train_dl,valid_dl,fix_dl,test_dl])
97
        if fix_dl is None: self.fix_dl = self.train_dl.new(shuffle=False, drop_last=False)
98
        self.single_dl = _create_dl(DataLoader(valid_dl.dataset, batch_size=1, num_workers=0))
99
        self.path = Path(path)
100
        if not no_check: self.sanity_check()
101

102
    def __repr__(self)->str:
103
        return f'{self.__class__.__name__};\n\nTrain: {self.train_ds};\n\nValid: {self.valid_ds};\n\nTest: {self.test_ds}'
104

105
    @staticmethod
106
    def _init_ds(train_ds:Dataset, valid_ds:Dataset, test_ds:Optional[Dataset]=None):
107
        # train_ds, but without training tfms
108
        fix_ds = valid_ds.new(train_ds.x, train_ds.y) if hasattr(valid_ds,'new') else train_ds
109
        return [o for o in (train_ds,valid_ds,fix_ds,test_ds) if o is not None]
110

111
    @classmethod
112
    def create(cls, train_ds:Dataset, valid_ds:Dataset, test_ds:Optional[Dataset]=None, path:PathOrStr='.', bs:int=64,
113
               val_bs:int=None, num_workers:int=defaults.cpus, dl_tfms:Optional[Collection[Callable]]=None,
114
               device:torch.device=None, collate_fn:Callable=data_collate, no_check:bool=False, **dl_kwargs)->'DataBunch':
115
        "Create a `DataBunch` from `train_ds`, `valid_ds` and maybe `test_ds` with a batch size of `bs`. Passes `**dl_kwargs` to `DataLoader()`"
116
        datasets = cls._init_ds(train_ds, valid_ds, test_ds)
117
        val_bs = ifnone(val_bs, bs)
118
        dls = [DataLoader(d, b, shuffle=s, drop_last=s, num_workers=num_workers, **dl_kwargs) for d,b,s in
119
               zip(datasets, (bs,val_bs,val_bs,val_bs), (True,False,False,False)) if d is not None]
120
        return cls(*dls, path=path, device=device, dl_tfms=dl_tfms, collate_fn=collate_fn, no_check=no_check)
121

122
    def __getattr__(self,k:int)->Any: return getattr(self.train_dl, k)
123
    def __setstate__(self,data:Any): self.__dict__.update(data)
124

125
    def dl(self, ds_type:DatasetType=DatasetType.Valid)->DeviceDataLoader:
126
        "Returns appropriate `Dataset` for validation, training, or test (`ds_type`)."
127
        #TODO: refactor
128
        return (self.train_dl if ds_type == DatasetType.Train else
129
                self.test_dl if ds_type == DatasetType.Test else
130
                self.valid_dl if ds_type == DatasetType.Valid else
131
                self.single_dl if ds_type == DatasetType.Single else
132
                self.fix_dl)
133

134
    @property
135
    def dls(self)->List[DeviceDataLoader]:
136
        "Returns a list of all DeviceDataLoaders. If you need a specific DeviceDataLoader, access via the relevant property (`train_dl`, `valid_dl`, etc) as the index of DLs in this list is not guaranteed to remain constant."
137
        res = [self.train_dl, self.fix_dl, self.single_dl]
138
        # Preserve the original ordering of Train, Valid, Fix, Single, Test Data Loaders
139
        # (Unknown/not verified as of 1.0.47 whether there are other methods explicitly using DLs their list index)
140
        if self.valid_dl: res.insert(1, self.valid_dl)
141
        return res if not self.test_dl else res + [self.test_dl]
142

143
    def add_tfm(self,tfm:Callable)->None:
144
        for dl in self.dls: dl.add_tfm(tfm)
145

146
    def remove_tfm(self,tfm:Callable)->None:
147
        for dl in self.dls: dl.remove_tfm(tfm)
148

149
    def save(self, file:PathLikeOrBinaryStream= 'data_save.pkl')->None:
150
        "Save the `DataBunch` in `self.path/file`. `file` can be file-like (file or buffer)"
151
        if not getattr(self, 'label_list', False):
152
            warn("Serializing the `DataBunch` only works when you created it using the data block API.")
153
            return
154
        try_save(self.label_list, self.path, file)
155

156
    def add_test(self, items:Iterator, label:Any=None, tfms=None, tfm_y=None)->None:
157
        "Add the `items` as a test set. Pass along `label` otherwise label them with `EmptyLabel`."
158
        self.label_list.add_test(items, label=label, tfms=tfms, tfm_y=tfm_y)
159
        vdl = self.valid_dl
160
        dl = DataLoader(self.label_list.test, vdl.batch_size, shuffle=False, drop_last=False, num_workers=vdl.num_workers)
161
        self.test_dl = DeviceDataLoader(dl, vdl.device, vdl.tfms, vdl.collate_fn)
162

163
    def one_batch(self, ds_type:DatasetType=DatasetType.Train, detach:bool=True, denorm:bool=True, cpu:bool=True)->Collection[Tensor]:
164
        "Get one batch from the data loader of `ds_type`. Optionally `detach` and `denorm`."
165
        dl = self.dl(ds_type)
166
        w = self.num_workers
167
        self.num_workers = 0
168
        try:     x,y = next(iter(dl))
169
        finally: self.num_workers = w
170
        if detach: x,y = to_detach(x,cpu=cpu),to_detach(y,cpu=cpu)
171
        norm = getattr(self,'norm',False)
172
        if denorm and norm:
173
            x = self.denorm(x)
174
            if norm.keywords.get('do_y',False): y = self.denorm(y, do_x=True)
175
        return x,y
176

177
    def one_item(self, item, detach:bool=False, denorm:bool=False, cpu:bool=False):
178
        "Get `item` into a batch. Optionally `detach` and `denorm`."
179
        ds = self.single_ds
180
        with ds.set_item(item):
181
            return self.one_batch(ds_type=DatasetType.Single, detach=detach, denorm=denorm, cpu=cpu)
182

183
    def show_batch(self, rows:int=5, ds_type:DatasetType=DatasetType.Train, reverse:bool=False, **kwargs)->None:
184
        "Show a batch of data in `ds_type` on a few `rows`."
185
        x,y = self.one_batch(ds_type, True, True)
186
        if reverse: x,y = x.flip(0),y.flip(0)
187
        n_items = rows **2 if self.train_ds.x._square_show else rows
188
        if self.dl(ds_type).batch_size < n_items: n_items = self.dl(ds_type).batch_size
189
        xs = [self.train_ds.x.reconstruct(grab_idx(x, i)) for i in range(n_items)]
190
        #TODO: get rid of has_arg if possible
191
        if has_arg(self.train_ds.y.reconstruct, 'x'):
192
            ys = [self.train_ds.y.reconstruct(grab_idx(y, i), x=x) for i,x in enumerate(xs)]
193
        else : ys = [self.train_ds.y.reconstruct(grab_idx(y, i)) for i in range(n_items)]
194
        self.train_ds.x.show_xys(xs, ys, **kwargs)
195
 
196
    def export(self, file:PathLikeOrBinaryStream='export.pkl'):
197
        "Export the minimal state of `self` for inference in `self.path/file`. `file` can be file-like (file or buffer)"
198
        xtra = dict(normalize=self.norm.keywords) if getattr(self, 'norm', False) else {}
199
        try_save(self.valid_ds.get_state(**xtra), self.path, file)
200

201
    def _grab_dataset(self, dl:DataLoader):
202
        ds = dl.dl.dataset
203
        while hasattr(ds, 'dataset'): ds = ds.dataset
204
        return ds
205

206
    @property
207
    def train_ds(self)->Dataset: return self._grab_dataset(self.train_dl)
208
    @property
209
    def valid_ds(self)->Dataset: return self._grab_dataset(self.valid_dl)
210
    @property
211
    def single_ds(self)->Dataset: return self._grab_dataset(self.single_dl)
212
    @property
213
    def loss_func(self)->OptLossFunc:
214
        return getattr(self.train_ds.y, 'loss_func', F.nll_loss) if hasattr(self.train_ds, 'y') else F.nll_loss
215

216
    @property
217
    def test_ds(self)->Dataset:
218
        return self._grab_dataset(self.test_dl) if self.test_dl is not None else None
219

220
    @property
221
    def empty_val(self)->bool:
222
        if not hasattr(self, 'valid_dl') or self.valid_dl is None:            return True
223
        if hasattr(self.valid_ds, 'items') and len(self.valid_ds.items) == 0: return True
224
        return (len(self.valid_ds) == 0)
225

226
    @property
227
    def is_empty(self)->bool:
228
        return not ((self.train_dl and len(self.train_ds.items) != 0) or 
229
                    (self.valid_dl and len(self.valid_ds.items) != 0) or 
230
                    (self.test_dl  and len(self.test_ds.items)  != 0))
231
    
232
    @property
233
    def batch_size(self):   return self.train_dl.batch_size
234
    @batch_size.setter
235
    def batch_size(self,v):
236
        self.train_dl.batch_size,self.valid_dl.batch_size = v,v
237
        if self.test_dl is not None: self.test_dl.batch_size = v
238

239
    def sanity_check(self):
240
        "Check the underlying data in the training set can be properly loaded."
241
        final_message = "You can deactivate this warning by passing `no_check=True`."
242
        if not hasattr(self.train_ds, 'items') or len(self.train_ds.items) == 0 or not hasattr(self.train_dl, 'batch_sampler'): return
243
        if len(self.train_dl) == 0:
244
            warn(f"""Your training dataloader is empty, you have only {len(self.train_dl.dataset)} items in your training set.
245
                 Your batch size is {self.train_dl.batch_size}, you should lower it.""")
246
            print(final_message)
247
            return
248
        idx = next(iter(self.train_dl.batch_sampler))
249
        samples,fails = [],[]
250
        for i in idx:
251
            try:    samples.append(self.train_dl.dataset[i])
252
            except: fails.append(i)
253
        if len(fails) > 0:
254
            warn_msg = "There seems to be something wrong with your dataset, for example, in the first batch can't access"
255
            if len(fails) == len(idx):
256
                warn_msg += f" any element of self.train_ds.\nTried: {show_some(idx)}"
257
            else:
258
                warn_msg += f" these elements in self.train_ds: {show_some(fails)}"
259
            warn(warn_msg)
260
            print(final_message)
261
            return
262
        try: batch = self.collate_fn(samples)
263
        except:
264
            message = "It's not possible to collate samples of your dataset together in a batch."
265
            try:
266
                shapes = [[o[i].data.shape for o in samples] for i in range(2)]
267
                message += f'\nShapes of the inputs/targets:\n{shapes}'
268
            except: pass
269
            warn(message)
270
            print(final_message)
271

272
def load_data(path:PathOrStr, file:PathLikeOrBinaryStream='data_save.pkl', bs:int=64, val_bs:int=None, num_workers:int=defaults.cpus,
273
              dl_tfms:Optional[Collection[Callable]]=None, device:torch.device=None, collate_fn:Callable=data_collate,
274
              no_check:bool=False, **kwargs)->DataBunch:
275
    "Load a saved `DataBunch` from `path/file`. `file` can be file-like (file or buffer)"
276
    source = Path(path)/file if is_pathlike(file) else file
277
    ll = torch.load(source, map_location='cpu') if defaults.device == torch.device('cpu') else torch.load(source)
278
    return ll.databunch(path=path, bs=bs, val_bs=val_bs, num_workers=num_workers, dl_tfms=dl_tfms, device=device,
279
                        collate_fn=collate_fn, no_check=no_check, **kwargs)
280

281
Product

Resources

Company