Path: blob/master/site/es-419/datasets/dataset_collections.ipynb
25115 views
Copyright 2022 The TensorFlow Authors.
Colecciones de conjuntos de datos
Descripción general
Las colecciones de conjuntos de datos proporcionan una manera simple de agrupar una cantidad arbitraria de conjuntos de datos TFDS existentes y realizar operaciones simples en ellos.
Pueden resultar útiles, por ejemplo, para agrupar diferentes conjuntos de datos que se relacionan con la misma tarea o para realizar una prueba comparativa sencilla de modelos en un número fijo de tareas diferentes.
Preparación
Para comenzar, instale algunos paquetes:
Importe TensorFlow y el paquete Tensorflow Datasets a su entorno de desarrollo:
Las colecciones de conjuntos de datos proporcionan una manera simple de agrupar una cantidad arbitraria de conjuntos de datos existentes desde Tensorflow Datasets (TFDS) y realizar operaciones simples en ellos.
Pueden resultar útiles, por ejemplo, para agrupar diferentes conjuntos de datos que se relacionan con la misma tarea o para realizar una prueba comparativa sencilla de modelos en un número fijo de tareas diferentes.
Encuentrar colecciones de conjuntos de datos disponibles
Todos los generadores de colecciones de conjuntos de datos son una subclase de tfds.core.dataset_collection_builder.DatasetCollection
.
Para obtener la lista de generadores disponibles, use tfds.list_dataset_collections()
.
Cargar e inspeccionar una colección de conjuntos de datos
La forma más fácil de cargar una colección de conjuntos de datos es crear una instancia de un objeto DatasetCollectionLoader
mediante el uso del comando tfds.dataset_collection
.
Se pueden cargar versiones específicas de la colección de conjuntos de datos al seguir la misma sintaxis que con los conjuntos de datos TFDS:
Un cargador de colecciones de conjuntos de datos puede mostrar información sobre la colección:
El cargador de conjuntos de datos también puede mostrar información sobre los conjuntos de datos que tiene la colección:
Cargar conjuntos de datos desde una colección de conjuntos de datos
La forma más fácil de cargar un conjunto de datos de una colección es con el método load_dataset
de un objeto DatasetCollectionLoader
, que carga el conjunto de datos requerido llamando al tfds.load
.
Esta llamada devuelve un diccionario de nombres divididos y los tf.data.Dataset
correspondientes:
load_dataset
acepta los siguientes parámetros opcionales:
split
: qué división o divisiones cargar. Acepta una única división (split="test"
) o una lista de divisiones: (split=["train", "test"]
). Si no se especifica, cargará todas las divisiones para el conjunto de datos dado.loader_kwargs
: argumentos de palabras clave que se pasarán a la funcióntfds.load
. Consulte la documentacióntfds.load
para obtener una descripción general completa de las diferentes opciones de carga.
Cargar varios conjuntos de datos desde una colección de conjuntos de datos
La forma más fácil de cargar varios conjuntos de datos de una colección es con el método load_dataset
de un objeto DatasetCollectionLoader
, que carga el conjunto de datos requerido llamando al tfds.load
.
Devuelve un diccionario de nombres de conjuntos de datos, cada uno de estos está asociado con un diccionario de nombres divididos y los tf.data.Dataset
correspondientes, como en el siguiente ejemplo:
El método load_all_datasets
carga todos los conjuntos de datos disponibles para una colección determinada:
El método load_datasets
acepta los siguientes parámetros opcionales:
split
: qué división o divisiones cargar. Acepta una única división (split="test"
) o una lista de divisiones: (split=["train", "test"]
). Si no se especifica, cargará todas las divisiones para el conjunto de datos dado.loader_kwargs
: argumentos de palabras clave que se pasarán a la funcióntfds.load
. Consulte la documentacióntfds.load
para obtener una descripción general completa de las diferentes opciones de carga.
Especificar loader_kwargs
Los loader_kwargs
son argumentos de palabras clave opcionales que se pasarán a la función tfds.load
. Se pueden especificar de tres maneras:
Al inicializar la clase
DatasetCollectionLoader
:
Con el método
set_loader_kwargs
deDatasetCollectioLoader
:
Como parámetros opcionales para los métodos
load_dataset
,load_datasets
yload_all_datasets
.
Comentarios
Siempre buscamos mejorar el flujo de trabajo de la creación de conjuntos de datos, pero solo podemos hacerlo si conocemos los problemas que hay. ¿Qué problemas o errores encontró al crear la colección del conjunto de datos? ¿Hubo alguna parte que le resultó confusa o no funcionó la primera vez? Comparta sus comentarios en GitHub.