Path: blob/master/site/ja/guide/migrate/migrating_feature_columns.ipynb
25118 views
Copyright 2021 The TensorFlow Authors.
tf.feature_column
を Keras 前処理レイヤーに移行する
通常、モデルのトレーニングには、特に構造化データを扱う場合に、特徴量の前処理が必要となることがあります。TensorFlow 1 で tf.estimator.Estimator
をトレーニングする場合、通常、tf.feature_column
API を使用して特徴量の前処理を実行します。TensorFlow 2 では、Keras 前処理レイヤーで直接実行できます。
この移行ガイドでは、特徴量カラムと前処理レイヤーの両方を使用した一般的な特徴量変換を紹介し、両方の API を使用して完全なモデルをトレーニングします。
まず、必要なものをインポートします。
次に、デモのために特徴量カラムを呼び出すためのユーティリティ関数を追加します。
入力処理
Estimator で特徴量カラムを使用するには、モデル入力は常にテンソルのディクショナリであることが期待されます。
各特徴量カラムは、ソースデータにインデックスを付けるためのキーを使用して作成する必要があります。すべての特徴量カラムの出力は連結され、Estimator モデルによって使用されます。
Keras では、モデル入力はより柔軟です。tf.keras.Model
は、単一のテンソル入力、テンソル特徴量のリスト、またはテンソル特徴量のディクショナリを処理できます。モデルの作成時に tf.keras.Input
のディクショナリを渡すことで、ディクショナリの入力を処理できます。入力は自動的に連結されないため、より柔軟な方法で使用できます。これらは tf.keras.layers.Concatenate
で連結できます。
One-hot エンコーディングの整数 ID
一般的に、既知の範囲の整数入力を One-hot エンコードすることにより特徴量を変換できます。特徴量カラムを使用した例を次に示します。
Keras 前処理レイヤーを使用すると、これらのカラムを output_mode
を 'one_hot'
に設定した単一の tf.keras.layers.CategoryEncoding
レイヤーに置き換えることができます。
注意: 大規模な One-hot エンコーディングの場合、出力のスパース表現を使用する方がはるかに効率的です。sparse=True
を CategoryEncoding
レイヤーに渡すと、レイヤーの出力は tf.sparse.SparseTensor
になり、効率的に tf.keras.layers.Dense
レイヤーへの入力として処理されます。
数値的特徴量の正規化
特徴量カラムを持つ連続浮動小数点特徴量を処理する場合、tf.feature_column.numeric_column
を使用する必要があります。入力が既に正規化されている場合、これを Keras に変換するのは簡単です。上記のように、tf.keras.Input
をモデルに直接使用するだけです。
numeric_column
を使用して入力を正規化することもできます。
対照的に、Keras では、この正規化は tf.keras.layers.Normalization
で実行できます。
数値特徴量のバケット化と One-hot エンコーディング
連続する浮動小数点の入力を変換するもう 1 つの一般的な方法は、固定範囲の整数にバケット化することです。
特徴量カラムでは、tf.feature_column.bucketized_column
を使用します。
Keras では、これを tf.keras.layers.Discretization
に置き換えます。
語彙を使用した文字列データの One-hot エンコーディング
文字列の特徴量を処理するには、多くの場合、文字列をインデックスに変換するために語彙の検索が必要です。特徴量カラムを使用して文字列を検索し、インデックスを One-hot エンコードする例を次に示します。
Keras 前処理レイヤーを使用して、output_mode
を 'one_hot'
に設定して tf.keras.layers.StringLookup
レイヤーを使用します。
注意: 大規模な One-hot エンコーディングの場合、出力のスパース表現を使用する方がはるかに効率的です。sparse=True
を StringLookup
レイヤーに渡すと、レイヤーの出力は tf.sparse.SparseTensor
になり、効率的に tf.keras.layers.Dense
レイヤーへの入力として処理されます。
語彙を使用した文字列データの埋め込み
より大きな語彙の場合、パフォーマンスを向上させるために埋め込みが必要になることがよくあります。特徴量カラムを使用して文字列特徴量を埋め込む例を次に示します。
これは、Keras 前処理レイヤーを使用して、tf.keras.layers.StringLookup
レイヤーと tf.keras.layers.Embedding
レイヤーを組み合わせることで実現できます。StringLookup
のデフォルトの出力は、埋め込みに直接入力できる整数インデックスになります。
注意: Embedding
レイヤーには、トレーニング可能なパラメータが含まれています。StringLookup
レイヤーはモデルの内部または外部のデータに適用できますが、正しくトレーニングするには、Embedding
が常にトレーニング可能な Keras モデルの一部である必要があります。
重み付きカテゴリカルデータの和
場合によっては、重みが関連付けられているカテゴリが出現するたびにカテゴリカルデータを処理する必要があります。特徴量カラムでは、これは tf.feature_column.weighted_categorical_column
で処理されます。indicator_column
と組み合わせると、カテゴリごとの重みの和を計算できます。
Keras では、これは output_mode='count'
で count_weights
入力を tf.keras.layers.CategoryEncoding
に渡すことで実行できます。
重み付きカテゴリカルデータの埋め込み
または、重み付きカテゴリカル入力を埋め込みたい場合もあります。特徴量カラムでは、embedding_column
に combiner
引数が含まれています。サンプルにカテゴリの複数のエントリが含まれている場合、それらは引数の設定(デフォルトでは 'mean'
)に従って結合されます。
Keras では、tf.keras.layers.Embedding
に対する combiner
オプションはありませんが、tf.keras.layers.Dense
で同じ効果を実現できます。上記の embedding_column
は、カテゴリの重みに従って埋め込みベクトルを単純に線形結合しています。一見明らかではありませんが、カテゴリカル入力をサイズ (num_tokens)
の疎な重みベクトルとして表し、形状 (embedding_size, num_tokens)
の Dense
カーネルを掛けるのとまったく同じです。
完全なトレーニングサンプル
完全なトレーニングワークフローでは、まず、異なる型の 3 つの特徴量を含むいくつかのデータを準備します。
TensorFlow 1 と TensorFlow 2 の両方のワークフローに共通する定数をいくつか定義します。
特徴量カラムを使用する
特徴量カラムは、作成時に Estimator にリストとして渡す必要があり、トレーニング中に暗黙的に呼び出されます。
また、特徴量カラムは、モデルで推論を実行するときに入力データを変換するためにも使用されます。
Keras 前処理レイヤーを使用する
Keras の前処理レイヤーは、より柔軟に呼び出せます。レイヤーはテンソルに直接適用したり、tf.data
入力パイプライン内で使用したり、トレーニング可能な Keras モデルに直接構築したりできます。
この例では、tf.data
入力パイプライン内に前処理レイヤーを適用します。これを行うには、別の tf.keras.Model
を定義して、入力する特徴量を前処理します。このモデルはトレーニング可能ではありませんが、前処理レイヤーをグループ化する便利な方法です。
注意: レイヤー作成時に語彙と正規化統計を提供する代わりに、多くの前処理レイヤーは、入力データからレイヤーの状態を直接学習するための adapt()
メソッドを提供します。詳細については、前処理ガイドを参照してください。
tf.data.Dataset.map
への呼び出し内でこのモデルを適用できるようになりました。map
に渡される関数は自動的に tf.function
に変換され、tf.function
コードを記述する際の通常の注意事項が適用されることに注意してください(副作用はありません)。
次に、トレーニング可能なレイヤーを含む別の Model
を定義します。このモデルへの入力が、前処理された特徴量の型と形状をどのように反映しているかに注目してください。
training_model
を tf.keras.Model.fit
でトレーニングできるようになりました。
最後に、推論時に、これらの個別の段階を組み合わせて、生の特徴量入力を処理する単一のモデルにすると便利です。
この合成モデルは、後で使用するために .keras
ファイルとして保存できます。
注意: 前処理レイヤーはトレーニングできないため、tf.data
を使用して非同期で適用できます。これには、前処理されたバッチをプリフェッチし、アクセラレータを解放してモデルの微分可能な部分に集中できるため、パフォーマンス上の利点があります(詳細については、tf.data
API によるパフォーマンスの向上ガイドのプリフェッチセクションを参照してください)。このガイドが示すように、トレーニング中に前処理を分離し、推論中にそれを構成することは、これらのパフォーマンスの向上を活用する柔軟な方法です。ただし、モデルが小さい場合や前処理時間を無視できる場合は、最初から完全なモデルに前処理を組み込む方が簡単な場合があります。これを行うには、tf.keras.Input
で始まる単一のモデルを構築し、その後に前処理レイヤー、その後にトレーニング可能なレイヤーを構築します。
特徴量カラムに対応する Keras レイヤー
参考までに、特徴量カラムにほぼ対応する Keras 前処理レイヤーを次に示します。
特徴量カラム | Keras レイヤー |
---|---|
`tf.feature_column.bucketized_column` | `tf.keras.layers.Discretization` |
`tf.feature_column.categorical_column_with_hash_bucket` | `tf.keras.layers.Hashing` |
`tf.feature_column.categorical_column_with_identity` | `tf.keras.layers.CategoryEncoding` |
`tf.feature_column.categorical_column_with_vocabulary_file` | `tf.keras.layers.StringLookup` または `tf.keras.layers.IntegerLookup` |
`tf.feature_column.categorical_column_with_vocabulary_list` | `tf.keras.layers.StringLookup` または `tf.keras.layers.IntegerLookup` |
`tf.feature_column.crossed_column` | `tf.keras.layers.experimental.preprocessing.HashedCrossing` |
`tf.feature_column.embedding_column` | `tf.keras.layers.Embedding` |
`tf.feature_column.indicator_column` | `output_mode='one_hot'` または `output_mode='multi_hot'`* |
`tf.feature_column.numeric_column` | `tf.keras.layers.Normalization` |
`tf.feature_column.sequence_categorical_column_with_hash_bucket` | `tf.keras.layers.Hashing` |
`tf.feature_column.sequence_categorical_column_with_identity` | `tf.keras.layers.CategoryEncoding` |
`tf.feature_column.sequence_categorical_column_with_vocabulary_file` | `tf.keras.layers.StringLookup`、`tf.keras.layers.IntegerLookup`、または `tf.keras.layer.TextVectorization`† |
`tf.feature_column.sequence_categorical_column_with_vocabulary_list` | `tf.keras.layers.StringLookup`、`tf.keras.layers.IntegerLookup`、または `tf.keras.layer.TextVectorization`† |
`tf.feature_column.sequence_numeric_column` | `tf.keras.layers.Normalization` |
`tf.feature_column.weighted_categorical_column` | `tf.keras.layers.CategoryEncoding` |
† tf.keras.layers.TextVectorization
は、自由形式のテキスト入力 (文全体または段落全体など)を直接処理できます。これは、TensorFlow 1 でのカテゴリカルシーケンス処理の 1 対 1 の置き換えではありませんが、アドホックテキスト前処理の便利な置き換えを提供します。
† tf.keras.layers.TextVectorization
は、自由形式のテキスト入力 (文全体または段落全体など)を直接処理できます。これは、TensorFlow 1 でのカテゴリカルシーケンス処理の 1 対 1 の置き換えではありませんが、アドホックテキスト前処理の便利な置き換えを提供します。
注意: tf.estimator.LinearClassifier
などの線形 Estimator は、embedding_column
または indicator_column
なしで直接のカテゴリカル入力(整数インデックス)を処理できます。ただし、整数インデックスを tf.keras.layers.Dense
または tf.keras.experimental.LinearModel
に直接渡すことはできません。これらの入力は、 Dense
または LinearModel
を呼び出す前に最初に tf.layers.CategoryEncoding
で output_mode='count'
(カテゴリサイズが大きい場合は sparse=True
)でエンコードする必要があります)。
次のステップ
Keras 前処理レイヤーの詳細については、前処理レイヤーの操作ガイドを参照してください。
前処理レイヤーを構造化データに適用する詳細な例については、Keras 前処理レイヤーを使用して構造化データを分類するチュートリアルを参照してください。