Path: blob/master/site/pt-br/datasets/add_dataset_collection.md
25115 views
Adicione uma nova coleção de datasets
Siga este guia para criar uma nova coleção de datasets (no TFDS ou no seu próprio repositório).
Visão geral
Para adicionar uma nova coleção de datasets my_collection
ao TFDS, os usuários precisam gerar uma pasta my_collection
contendo os seguintes arquivos:
Como convenção, novas coleções de datasets devem ser adicionadas à pasta tensorflow_datasets/dataset_collections/
no repositório TFDS.
Escreva sua coleção de datasets
Todas as coleções de datasets são subclasses implementadas de tfds.core.dataset_collection_builder.DatasetCollection
.
Aqui está um exemplo mínimo de um construtor de coleção de datasets, definido no arquivo my_collection.py
:
As próximas seções descrevem os 2 métodos abstratos a serem sobrepostos.
info
: metadados da coleção de datasets
O método info
retorna o dataset_collection_builder.DatasetCollectionInfo
contendo os metadados da coleção.
Um dataset collection info contém quatro campos:
nome: o nome da coleção de datasets.
descrição: uma descrição formatada em markdown da coleção de datasets. Existem duas maneiras de definir a descrição de uma coleção de datasets: (1) Como uma string (multilinhas) diretamente no arquivo
my_collection.py
da coleção - da mesma forma como já é feito para conjuntos de dados TFDS; (2) Em um arquivodescription.md
, que deve ser colocado na pasta da coleção de datasets.release_notes: um mapeamento da versão da coleção de datasets para as notas de lançamento correspondentes.
citation: uma (lista de) citações opcionais do BibTeX para a coleção de datasets. Existem duas maneiras de definir a citação de uma coleção de datasets: (1) Como uma string (multilinhas) diretamente no arquivo
my_collection.py
da coleção - da mesma forma como já é feito para datasets TFDS; (2) Num arquivocitations.bib
, que deve ser colocado na pasta da coleção de datasets.
datasets
: defina os datasets da coleção
O método datasets
retorna os datasets TFDS na coleção.
É definido como um dicionário de versões, que descreve a evolução da coleção do dataset.
Para cada versão, os datasets TFDS incluídos são armazenados como um dicionário associando nomes dos datasets a naming.DatasetReference
. Por exemplo:
O método naming.references_for
fornece uma maneira mais compacta de expressar o mesmo que o código acima:
Faça testes de unidade na sua coleção de datasets
A DatasetCollectionTestBase é uma classe de teste base para coleções de datasets. Ela fornece uma série de verificações simples para garantir que a coleção de datasets esteja registrada corretamente e que seus datasets existam no TFDS.
O único atributo de classe a ser definido é DATASET_COLLECTION_CLASS
, que especifica o objeto de classe da coleção de datasets a ser testado.
Além disso, os usuários podem definir os seguintes atributos de classe:
VERSION
: A versão da coleção de datasets usada para executar o teste (o padrão é a versão mais recente).DATASETS_TO_TEST
: Lista contendo os datasets s serem testados quanto à existência no TFDS (o padrão é todos os datasets da coleção).CHECK_DATASETS_VERSION
: se deve ou não verificar a existência dos datasets versionados na coleção de datasets ou suas versões padrão (o padrão é true).
O teste válido mais simples para uma coleção de datasets seria:
Execute o comando a seguir para testar a coleção de datasets.
Feedback
Tentamos continuamente melhorar o workflow de criação de datasets, mas só poderemos fazê-lo se estivermos cientes dos problemas. Quais problemas ou erros você encontrou ao criar a coleção do dataset? Houve alguma parte que foi confusa ou não funcionou de primeira?
Compartilhe seu feedback no GitHub.