Kernel: Python 3
Copyright 2021 The TensorFlow Authors.
In [1]:
Apache ORC リーダー
概要
Apache ORC は、一般的な列型ストレージ形式です。tensorflow-io パッケージは、Apache ORC ファイルを読み取るデフォルトの実装を提供します。
MNIST モデルをビルドする
必要なパッケージをインストールし、ランタイムを再起動する
In [2]:
In [3]:
ORC でサンプルデータセットファイルをダウンロードする
ここで使用するデータセットは、UCI の Iris データセットです。データセットには、それぞれ 50 インスタンスの 3 つのクラスが含まれ、各クラスはアヤメの植物のタイプを参照します。これには、(1)がく片の長さ、(2)がく片の幅、(3)花びらの長さ、(4)花びらの幅の、4つの属性があり、最後の列にはクラスラベルが含まれています。
In [4]:
ファイルからデータセットを作成する
In [35]:
データセットを調べます。
In [42]:
Iris データセットに基づく ORC データセットを使用した tf.keras モデルトレーニングのエンドツーエンドの例を見ていきましょう。
データの前処理をする
どの列が特徴で、どの列がラベルであるかを構成します。
In [47]:
モデルトレーニングのために種を浮動小数点数にマッピングする util 関数:
In [48]:
In [49]:
モデルをビルド、コンパイル、およびトレーニングする
これで、モデルを作成してトレーニングする準備が整いました。処理したデータセットからアヤメ植物のクラスを予測するために、3 つのレイヤーの keras モデルを構築します。
In [50]: