GitHub Repository: tensorflow/docs-l10n
Path: blob/master/site/pt-br/datasets/dataset_collections.ipynb
²⁵¹¹⁵ views

Kernel: Python 3

Copyright 2022 The TensorFlow Authors.

In [ ]:

#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

Coleções de datasets

Ver em TensorFlow.org

Executar no Google Colab

Ver no GitHub

Baixar notebook

Visão geral

As coleções de datasets fornecem uma maneira simples de agrupar um número arbitrário de datasets TFDS existentes e de realizar operações simples sobre eles.

Podem ser úteis, por exemplo, para agrupar diferentes datasets relacionados com a mesma tarefa ou para facilitar o benchmarking de modelos sobre um número fixo de tarefas diferentes.

Configuração

Para começar, instale alguns pacotes:

In [ ]:

# Use tfds-nightly to ensure access to the latest features.
!pip install -q tfds-nightly tensorflow
!pip install -U conllu

Importe o TensorFlow e o pacote Tensorflow Datasets para seu ambiente de desenvolvimento:

In [ ]:

import pprint

import tensorflow as tf
import tensorflow_datasets as tfds

As coleções de datasets fornecem uma maneira simples de agrupar um número arbitrário de datasets existentes de do Tensorflow Datasets (TFDS) e de realizar operações simples sobre eles.

Podem ser úteis, por exemplo, para agrupar diferentes datasets relacionados com a mesma tarefa ou para facilitar o benchmarking de modelos sobre um número fixo de tarefas diferentes.

Encontre coleções de datasets disponíveis

Todos os construtores de coleções de datasets são uma subclasse de tfds.core.dataset_collection_builder.DatasetCollection.

Para obter a lista de construtores disponíveis, use tfds.list_dataset_collections().

In [ ]:

tfds.list_dataset_collections()

Carregue e inspecione uma coleção de datasets

A maneira mais fácil de carregar uma coleção de datasets é instanciando um objeto DatasetCollectionLoader com o comando tfds.dataset_collection.

In [ ]:

collection_loader = tfds.dataset_collection('xtreme')

Versões específicas da coleção de datasets podem ser carregadas seguindo a mesma sintaxe dos datasets TFDS:

In [ ]:

collection_loader = tfds.dataset_collection('xtreme:1.0.0')

Um carregador de coleção de datasets pode exibir informações sobre a coleção:

In [ ]:

collection_loader.print_info()

O carregador de datasets também pode exibir informações sobre os datasets contidos na coleção:

In [ ]:

collection_loader.print_datasets()

Carregando datasets de uma coleção de datasets

A maneira mais fácil de carregar um dataset de uma coleção é usar o método load_dataset do objeto DatasetCollectionLoader, que carrega o dataset necessário chamando tfds.load.

Esta chamada retorna um dicionário de nomes de divisões e os tf.data.Dataset correspondentes:

In [ ]:

splits = collection_loader.load_dataset("ner")

pprint.pprint(splits)

load_dataset aceita os seguintes parâmetros opcionais:

split: qual(is) divisão(ões) carregar. Aceita uma única divisão (split="test") ou uma lista de divisões: (split=["train", "test"]). Se não for especificado, carregará todas as divisões do dataset fornecido.
loader_kwargs: argumentos de palavra-chave a serem passados para a função tfds.load. Consulte a documentação tfds.load para uma visão geral abrangente das diferentes opções de carregamento.

Carregando múltiplos datasets de uma coleção de datasets

A maneira mais fácil de carregar múltiplos datasets de uma coleção é usar o método load_datasets do objeto DatasetCollectionLoader, que carrega os datasets necessários chamando tfds.load.

Ele retorna um dicionário de nomes de dataset, cada um deles associado a um dicionário de nomes de divisões e os tf.data.Dataset correspondentes, como no exemplo a seguir:

In [ ]:

datasets = collection_loader.load_datasets(['xnli', 'bucc'])

pprint.pprint(datasets)

O método load_all_datasets carrega todos os datasets disponíveis para uma determinada coleção:

In [ ]:

all_datasets = collection_loader.load_all_datasets()

pprint.pprint(all_datasets)

O método load_datasets aceita os seguintes parâmetros opcionais:

split: qual(is) divisão(ões) carregar. Aceita uma única divisão (split="test") ou uma lista de divisões: (split=["train", "test"]). Se não for especificado, carregará todas as divisões do dataset fornecido.
loader_kwargs: argumentos de palavra-chave a serem passados para a função tfds.load. Consulte a documentação tfds.load para uma visão geral abrangente das diferentes opções de carregamento.

Especificando `loader_kwargs`

Os loader_kwargs são argumentos de palavra-chave opcionais a serem passados para a função tfds.load. Eles podem ser especificados de três maneiras:

Ao inicializar a classe DatasetCollectionLoader:

In [ ]:

collection_loader = tfds.dataset_collection('xtreme', loader_kwargs=dict(split='train', batch_size=10, try_gcs=False))

Usando o método set_loader_kwargs de DatasetCollectioLoader:

In [ ]:

collection_loader.set_loader_kwargs(dict(split='train', batch_size=10, try_gcs=False))

Como parâmetros opcionais para os métodos load_dataset, load_datasets e load_all_datasets.

In [ ]:

dataset = collection_loader.load_dataset('ner', loader_kwargs=dict(split='train', batch_size=10, try_gcs=False))

Feedback

Nos esforçamos continuamente para melhorar o fluxo de trabalho de criação de datasets, mas só poderemos fazê-lo se estivermos cientes dos problemas. Quais problemas ou erros você encontrou ao criar a coleção de datasets? Alguma parte ficou confusa, clichê ou não funcionou de primeira? Compartilhe seu feedback no GitHub.

Copyright 2022 The TensorFlow Authors.

Coleções de datasets

Visão geral

Configuração

Encontre coleções de datasets disponíveis

Carregue e inspecione uma coleção de datasets

Carregando datasets de uma coleção de datasets

Carregando múltiplos datasets de uma coleção de datasets

Especificando `loader_kwargs`

Feedback

Product

Resources

Company

Copyright 2022 The TensorFlow Authors.

Coleções de datasets

Visão geral

Configuração

Encontre coleções de datasets disponíveis

Carregue e inspecione uma coleção de datasets

Carregando datasets de uma coleção de datasets

Carregando múltiplos datasets de uma coleção de datasets

Especificando loader_kwargs

Feedback

Especificando `loader_kwargs`