Path: blob/master/site/es-419/datasets/add_dataset_collection.md
25115 views
Agregar una nueva colección de conjuntos de datos
Siga esta guía para crear una nueva colección de conjuntos de datos (ya sea en TFDS o en su propio repositorio).
Descripción general
Para agregar una nueva colección de conjuntos de datos my_collection
a TFDS, los usuarios deben generar una carpeta my_collection
que contenga los siguientes archivos:
Como convención, se deben agregar las nuevas colecciones de conjuntos de datos a la carpeta tensorflow_datasets/dataset_collections/
en el repositorio TFDS.
Escriba su colección de conjuntos de datos
Todas las colecciones de conjuntos de datos son subclases implementadas de tfds.core.dataset_collection_builder.DatasetCollection
.
A continuación, se muestra un ejemplo mínimo de un generador de colecciones de conjuntos de datos, definido en el archivo my_collection.py
:
En las siguientes secciones, se describen los 2 métodos abstractos para sobrescribir.
info
: metadatos de recopilación de conjuntos de datos
El método info
devuelve dataset_collection_builder.DatasetCollectionInfo
que contiene los metadatos de la colección.
La información de recopilación del conjunto de datos contiene cuatro campos:
nombre: el nombre de la colección del conjunto de datos.
descripción: una descripción con formato markdown de la colección del conjunto de datos. Hay dos formas de definir la descripción de una colección de conjuntos de datos: (1) En una cadena de texto (de varias líneas) directamente en el archivo
my_collection.py
de la colección, similar a como ya se hace para los conjuntos de datos TFDS; (2) en un archivodescription.md
, que debe colocarse en la carpeta de recopilación del conjunto de datos.release_notes: una asignación de la versión de la colección del conjunto de datos a las notas de la versión correspondientes.
cita: una (lista de) cita(s) BibTeX opcionales para la colección del conjunto de datos. Hay dos formas de definir la cita de una colección de conjuntos de datos: (1) Como una cadena de texto (de varias líneas) directamente en el archivo
my_collection.py
de la colección, de manera similar a como ya se hace para los conjuntos de datos TFDS; (2) en un archivocitations.bib
, que debe colocarse en la carpeta de recopilación del conjunto de datos.
datasets
: define los conjuntos de datos en la colección
El método de datasets
devuelve los conjuntos de datos TFDS de la colección.
Se define como un diccionario de versiones, que describen la evolución de la recopilación de conjuntos de datos.
Para cada versión, los conjuntos de datos TFDS incluidos se almacenan como un diccionario desde los nombres de los conjuntos de datos en naming.DatasetReference
. Por ejemplo:
El método naming.references_for
proporciona una forma más compacta de expresar lo mismo que el anterior:
Prueba unitaria de su colección de conjuntos de datos
DatasetCollectionTestBase es una clase de prueba base para colecciones de conjuntos de datos. Proporciona una serie de comprobaciones simples para garantizar que la recopilación del conjunto de datos esté registrada correctamente y que sus conjuntos de datos existan en TFDS.
El único atributo de clase que se debe establecer es DATASET_COLLECTION_CLASS
, que especifica el objeto de la clase de la colección de conjuntos de datos que se va a probar.
Además, los usuarios pueden configurar los siguientes atributos de clase:
VERSION
: La versión de la colección del conjunto de datos que se usa para ejecutar la prueba (el valor predeterminado es la última versión).DATASETS_TO_TEST
: Lista que contiene los conjuntos de datos para probar la existencia en TFDS (el valor predeterminado es todos los conjuntos de datos de la colección).CHECK_DATASETS_VERSION
: ya sea para verificar la existencia de los conjuntos de datos versionados en la colección de conjuntos de datos o sus versiones predeterminadas (el valor predeterminado es verdadero).
La prueba válida más simple para una recopilación de conjuntos de datos sería:
Ejecute el siguiente comando para probar la colección del conjunto de datos.
Comentarios
Siempre buscamos mejorar el flujo de trabajo de la creación de conjuntos de datos, pero solo podemos hacerlo si conocemos los problemas que hay. ¿Qué problemas o errores encontró al crear la colección del conjunto de datos? ¿Hubo alguna parte que resultó confusa o no funcionó la primera vez?
Deje sus comentarios en GitHub.