Path: blob/master/site/zh-cn/io/tutorials/orc.ipynb
25118 views
Kernel: Python 3
Copyright 2021 The TensorFlow Authors.
In [1]:
Apache ORC Reader
概述
Apache ORC 是比较流行的列式存储格式。tensorflow-io 软件包可以默认实现 Apache ORC 文件的读取。
安装
安装所需的软件包,然后重新启动运行时
In [2]:
In [3]:
在 ORC 中下载示例数据集文件
您将在此处使用的数据集是来自 UCI 的 iris 数据集。该数据集包含 3 个类别,每个类别 50 个实例,其中每个类别指的是一种鸢尾植物。它有 4 个属性:(1) 萼片长度、(2) 萼片宽度、(3) 花瓣长度、(4) 花瓣宽度,最后一列包含类别标签。
In [4]:
从文件创建数据集
In [35]:
检查数据集:
In [42]:
让我们来看一个端到端示例,该示例基于 iris 数据集使用 ORC 数据集来训练 tf.keras 模型。
数据预处理
配置哪些列是特征,哪些列是标签:
In [47]:
将物种映射到浮点数以进行模型训练的 util 函数如下:
In [48]:
In [49]:
构建、编译并训练模型
最后,您已准备好构建模型并对其进行训练!您将构建一个 3 层 keras 模型,以根据刚刚处理的数据集来预测鸢尾植物的类别。
In [50]: