Path: blob/master/site/pt-br/datasets/dataset_collections.ipynb
25115 views
Copyright 2022 The TensorFlow Authors.
Coleções de datasets
Visão geral
As coleções de datasets fornecem uma maneira simples de agrupar um número arbitrário de datasets TFDS existentes e de realizar operações simples sobre eles.
Podem ser úteis, por exemplo, para agrupar diferentes datasets relacionados com a mesma tarefa ou para facilitar o benchmarking de modelos sobre um número fixo de tarefas diferentes.
Configuração
Para começar, instale alguns pacotes:
Importe o TensorFlow e o pacote Tensorflow Datasets para seu ambiente de desenvolvimento:
As coleções de datasets fornecem uma maneira simples de agrupar um número arbitrário de datasets existentes de do Tensorflow Datasets (TFDS) e de realizar operações simples sobre eles.
Podem ser úteis, por exemplo, para agrupar diferentes datasets relacionados com a mesma tarefa ou para facilitar o benchmarking de modelos sobre um número fixo de tarefas diferentes.
Encontre coleções de datasets disponíveis
Todos os construtores de coleções de datasets são uma subclasse de tfds.core.dataset_collection_builder.DatasetCollection
.
Para obter a lista de construtores disponíveis, use tfds.list_dataset_collections()
.
Carregue e inspecione uma coleção de datasets
A maneira mais fácil de carregar uma coleção de datasets é instanciando um objeto DatasetCollectionLoader
com o comando tfds.dataset_collection
.
Versões específicas da coleção de datasets podem ser carregadas seguindo a mesma sintaxe dos datasets TFDS:
Um carregador de coleção de datasets pode exibir informações sobre a coleção:
O carregador de datasets também pode exibir informações sobre os datasets contidos na coleção:
Carregando datasets de uma coleção de datasets
A maneira mais fácil de carregar um dataset de uma coleção é usar o método load_dataset
do objeto DatasetCollectionLoader
, que carrega o dataset necessário chamando tfds.load
.
Esta chamada retorna um dicionário de nomes de divisões e os tf.data.Dataset
correspondentes:
load_dataset
aceita os seguintes parâmetros opcionais:
split
: qual(is) divisão(ões) carregar. Aceita uma única divisão(split="test")
ou uma lista de divisões:(split=["train", "test"])
. Se não for especificado, carregará todas as divisões do dataset fornecido.loader_kwargs
: argumentos de palavra-chave a serem passados para a funçãotfds.load
. Consulte a documentaçãotfds.load
para uma visão geral abrangente das diferentes opções de carregamento.
Carregando múltiplos datasets de uma coleção de datasets
A maneira mais fácil de carregar múltiplos datasets de uma coleção é usar o método load_datasets
do objeto DatasetCollectionLoader
, que carrega os datasets necessários chamando tfds.load
.
Ele retorna um dicionário de nomes de dataset, cada um deles associado a um dicionário de nomes de divisões e os tf.data.Dataset
correspondentes, como no exemplo a seguir:
O método load_all_datasets
carrega todos os datasets disponíveis para uma determinada coleção:
O método load_datasets
aceita os seguintes parâmetros opcionais:
split
: qual(is) divisão(ões) carregar. Aceita uma única divisão(split="test")
ou uma lista de divisões:(split=["train", "test"])
. Se não for especificado, carregará todas as divisões do dataset fornecido.loader_kwargs
: argumentos de palavra-chave a serem passados para a funçãotfds.load
. Consulte a documentaçãotfds.load
para uma visão geral abrangente das diferentes opções de carregamento.
Especificando loader_kwargs
Os loader_kwargs
são argumentos de palavra-chave opcionais a serem passados para a função tfds.load
. Eles podem ser especificados de três maneiras:
Ao inicializar a classe
DatasetCollectionLoader
:
Usando o método
set_loader_kwargs
deDatasetCollectioLoader
:
Como parâmetros opcionais para os métodos
load_dataset
,load_datasets
eload_all_datasets
.
Feedback
Nos esforçamos continuamente para melhorar o fluxo de trabalho de criação de datasets, mas só poderemos fazê-lo se estivermos cientes dos problemas. Quais problemas ou erros você encontrou ao criar a coleção de datasets? Alguma parte ficou confusa, clichê ou não funcionou de primeira? Compartilhe seu feedback no GitHub.