Path: blob/master/site/pt-br/datasets/dataset_collections.ipynb
39042 views
Copyright 2022 The TensorFlow Authors.
Coleções de datasets
Visão geral
As coleções de datasets fornecem uma maneira simples de agrupar um número arbitrário de datasets TFDS existentes e de realizar operações simples sobre eles.
Podem ser úteis, por exemplo, para agrupar diferentes datasets relacionados com a mesma tarefa ou para facilitar o benchmarking de modelos sobre um número fixo de tarefas diferentes.
Configuração
Para começar, instale alguns pacotes:
Importe o TensorFlow e o pacote Tensorflow Datasets para seu ambiente de desenvolvimento:
As coleções de datasets fornecem uma maneira simples de agrupar um número arbitrário de datasets existentes de do Tensorflow Datasets (TFDS) e de realizar operações simples sobre eles.
Podem ser úteis, por exemplo, para agrupar diferentes datasets relacionados com a mesma tarefa ou para facilitar o benchmarking de modelos sobre um número fixo de tarefas diferentes.
Encontre coleções de datasets disponíveis
Todos os construtores de coleções de datasets são uma subclasse de tfds.core.dataset_collection_builder.DatasetCollection.
Para obter a lista de construtores disponíveis, use tfds.list_dataset_collections().
Carregue e inspecione uma coleção de datasets
A maneira mais fácil de carregar uma coleção de datasets é instanciando um objeto DatasetCollectionLoader com o comando tfds.dataset_collection.
Versões específicas da coleção de datasets podem ser carregadas seguindo a mesma sintaxe dos datasets TFDS:
Um carregador de coleção de datasets pode exibir informações sobre a coleção:
O carregador de datasets também pode exibir informações sobre os datasets contidos na coleção:
Carregando datasets de uma coleção de datasets
A maneira mais fácil de carregar um dataset de uma coleção é usar o método load_dataset do objeto DatasetCollectionLoader, que carrega o dataset necessário chamando tfds.load.
Esta chamada retorna um dicionário de nomes de divisões e os tf.data.Dataset correspondentes:
load_dataset aceita os seguintes parâmetros opcionais:
split: qual(is) divisão(ões) carregar. Aceita uma única divisão(split="test")ou uma lista de divisões:(split=["train", "test"]). Se não for especificado, carregará todas as divisões do dataset fornecido.loader_kwargs: argumentos de palavra-chave a serem passados para a funçãotfds.load. Consulte a documentaçãotfds.loadpara uma visão geral abrangente das diferentes opções de carregamento.
Carregando múltiplos datasets de uma coleção de datasets
A maneira mais fácil de carregar múltiplos datasets de uma coleção é usar o método load_datasets do objeto DatasetCollectionLoader, que carrega os datasets necessários chamando tfds.load.
Ele retorna um dicionário de nomes de dataset, cada um deles associado a um dicionário de nomes de divisões e os tf.data.Dataset correspondentes, como no exemplo a seguir:
O método load_all_datasets carrega todos os datasets disponíveis para uma determinada coleção:
O método load_datasets aceita os seguintes parâmetros opcionais:
split: qual(is) divisão(ões) carregar. Aceita uma única divisão(split="test")ou uma lista de divisões:(split=["train", "test"]). Se não for especificado, carregará todas as divisões do dataset fornecido.loader_kwargs: argumentos de palavra-chave a serem passados para a funçãotfds.load. Consulte a documentaçãotfds.loadpara uma visão geral abrangente das diferentes opções de carregamento.
Especificando loader_kwargs
Os loader_kwargs são argumentos de palavra-chave opcionais a serem passados para a função tfds.load. Eles podem ser especificados de três maneiras:
Ao inicializar a classe
DatasetCollectionLoader:
Usando o método
set_loader_kwargsdeDatasetCollectioLoader:
Como parâmetros opcionais para os métodos
load_dataset,load_datasetseload_all_datasets.
Feedback
Nos esforçamos continuamente para melhorar o fluxo de trabalho de criação de datasets, mas só poderemos fazê-lo se estivermos cientes dos problemas. Quais problemas ou erros você encontrou ao criar a coleção de datasets? Alguma parte ficou confusa, clichê ou não funcionou de primeira? Compartilhe seu feedback no GitHub.
Ver em TensorFlow.org
Executar no Google Colab
Ver no GitHub
Baixar notebook