Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
tensorflow
GitHub Repository: tensorflow/docs-l10n
Path: blob/master/site/pt-br/datasets/dataset_collections.ipynb
25115 views
Kernel: Python 3
#@title Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file except in compliance with the License. # You may obtain a copy of the License at # # https://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, software # distributed under the License is distributed on an "AS IS" BASIS, # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. # See the License for the specific language governing permissions and # limitations under the License.

Coleções de datasets

Visão geral

As coleções de datasets fornecem uma maneira simples de agrupar um número arbitrário de datasets TFDS existentes e de realizar operações simples sobre eles.

Podem ser úteis, por exemplo, para agrupar diferentes datasets relacionados com a mesma tarefa ou para facilitar o benchmarking de modelos sobre um número fixo de tarefas diferentes.

Configuração

Para começar, instale alguns pacotes:

# Use tfds-nightly to ensure access to the latest features. !pip install -q tfds-nightly tensorflow !pip install -U conllu

Importe o TensorFlow e o pacote Tensorflow Datasets para seu ambiente de desenvolvimento:

import pprint import tensorflow as tf import tensorflow_datasets as tfds

As coleções de datasets fornecem uma maneira simples de agrupar um número arbitrário de datasets existentes de do Tensorflow Datasets (TFDS) e de realizar operações simples sobre eles.

Podem ser úteis, por exemplo, para agrupar diferentes datasets relacionados com a mesma tarefa ou para facilitar o benchmarking de modelos sobre um número fixo de tarefas diferentes.

Encontre coleções de datasets disponíveis

Todos os construtores de coleções de datasets são uma subclasse de tfds.core.dataset_collection_builder.DatasetCollection.

Para obter a lista de construtores disponíveis, use tfds.list_dataset_collections().

tfds.list_dataset_collections()

Carregue e inspecione uma coleção de datasets

A maneira mais fácil de carregar uma coleção de datasets é instanciando um objeto DatasetCollectionLoader com o comando tfds.dataset_collection.

collection_loader = tfds.dataset_collection('xtreme')

Versões específicas da coleção de datasets podem ser carregadas seguindo a mesma sintaxe dos datasets TFDS:

collection_loader = tfds.dataset_collection('xtreme:1.0.0')

Um carregador de coleção de datasets pode exibir informações sobre a coleção:

collection_loader.print_info()

O carregador de datasets também pode exibir informações sobre os datasets contidos na coleção:

collection_loader.print_datasets()

Carregando datasets de uma coleção de datasets

A maneira mais fácil de carregar um dataset de uma coleção é usar o método load_dataset do objeto DatasetCollectionLoader, que carrega o dataset necessário chamando tfds.load.

Esta chamada retorna um dicionário de nomes de divisões e os tf.data.Dataset correspondentes:

splits = collection_loader.load_dataset("ner") pprint.pprint(splits)

load_dataset aceita os seguintes parâmetros opcionais:

  • split: qual(is) divisão(ões) carregar. Aceita uma única divisão (split="test") ou uma lista de divisões: (split=["train", "test"]). Se não for especificado, carregará todas as divisões do dataset fornecido.

  • loader_kwargs: argumentos de palavra-chave a serem passados ​​para a função tfds.load. Consulte a documentação tfds.load para uma visão geral abrangente das diferentes opções de carregamento.

Carregando múltiplos datasets de uma coleção de datasets

A maneira mais fácil de carregar múltiplos datasets de uma coleção é usar o método load_datasets do objeto DatasetCollectionLoader, que carrega os datasets necessários chamando tfds.load.

Ele retorna um dicionário de nomes de dataset, cada um deles associado a um dicionário de nomes de divisões e os tf.data.Dataset correspondentes, como no exemplo a seguir:

datasets = collection_loader.load_datasets(['xnli', 'bucc']) pprint.pprint(datasets)

O método load_all_datasets carrega todos os datasets disponíveis para uma determinada coleção:

all_datasets = collection_loader.load_all_datasets() pprint.pprint(all_datasets)

O método load_datasets aceita os seguintes parâmetros opcionais:

  • split: qual(is) divisão(ões) carregar. Aceita uma única divisão (split="test") ou uma lista de divisões: (split=["train", "test"]). Se não for especificado, carregará todas as divisões do dataset fornecido.

  • loader_kwargs: argumentos de palavra-chave a serem passados ​​para a função tfds.load. Consulte a documentação tfds.load para uma visão geral abrangente das diferentes opções de carregamento.

Especificando loader_kwargs

Os loader_kwargs são argumentos de palavra-chave opcionais a serem passados ​​para a função tfds.load. Eles podem ser especificados de três maneiras:

  1. Ao inicializar a classe DatasetCollectionLoader:

collection_loader = tfds.dataset_collection('xtreme', loader_kwargs=dict(split='train', batch_size=10, try_gcs=False))
  1. Usando o método set_loader_kwargs de DatasetCollectioLoader:

collection_loader.set_loader_kwargs(dict(split='train', batch_size=10, try_gcs=False))
  1. Como parâmetros opcionais para os métodos load_dataset, load_datasets e load_all_datasets.

dataset = collection_loader.load_dataset('ner', loader_kwargs=dict(split='train', batch_size=10, try_gcs=False))

Feedback

Nos esforçamos continuamente para melhorar o fluxo de trabalho de criação de datasets, mas só poderemos fazê-lo se estivermos cientes dos problemas. Quais problemas ou erros você encontrou ao criar a coleção de datasets? Alguma parte ficou confusa, clichê ou não funcionou de primeira? Compartilhe seu feedback no GitHub.