Path: blob/master/site/es-419/io/tutorials/orc.ipynb
25118 views
Copyright 2021 The TensorFlow Authors.
Lector de Apache ORC
Descripción general
Apache ORC es un formato de almacenamiento en columnas popular. El paquete tensorflow-io proporciona una implementación predeterminada para leer archivos Apache ORC.
Preparación
Instale los paquetes necesarios y reinicie el tiempo de ejecución
Descargue un archivo de conjunto de datos de muestra en ORC
El conjunto de datos que usará es el conjunto de datos Iris de la UCI. El conjunto de datos contiene 3 clases de 50 instancias cada una, donde cada clase se refiere a un tipo de planta de iris. Tiene 4 atributos: (1) largo del sépalo, (2) ancho del sépalo, (3) largo del pétalo, (4) ancho del pétalo y la última columna contiene la etiqueta de clase.
Crear un conjunto de datos a partir del archivo
Examine el conjunto de datos:
Veamos un ejemplo de principio a fin de entrenamiento del modelo tf.keras con un conjunto de datos de ORC basado en un conjunto de datos iris.
Preprocesamiento de los datos
Configure qué columnas son características y qué columna es etiqueta:
Una función útil para asignar especies a números flotantes para el entrenamiento de modelos:
Construir, compilar y entrenar el modelo
¡Finalmente, está todo listo para construir el modelo y entrenarlo! Construirá un modelo keras de 3 capas para predecir la clase de planta de iris a partir del conjunto de datos que acaba de procesar.