StatisticsGen TFX パイプラインコンポーネント
StatisticsGen TFX パイプラインコンポーネントは、training と serving データの両方で、ほかのパイプラインコンポーネントが使用できる特徴量の統計を生成します。StatisticsGen は Beam を使用して、大型のデータセットに合わせて拡張することができます。
入力: ExampleGen パイプラインコンポーネントが作成したデータセット
出力: データセットの統計
StatisticsGen と TensorFlow Data Validation
StatisticsGen はデータセットから統計を生成するために TensorFlow Data Validation を多大に使用しています。
StatsGen コンポーネントを使用する
StatisticsGen パイプラインコンポーネントは通常、非常にデプロイしやすく、ほとんどカスタマイズする必要はありません。一般的なコードは次のように記述されます。
StatsGen コンポーネントをスキーマと使用する
パイプラインを初めて実行する場合、スキーマの推論に StatisticsGen が使用されます。しかし以降の実行では、データセットに関する追加情報が含まれる手動作成のスキーマが存在することがあります。このスキーマを StatisticsGen に提供すると、TFDV はデータセットの宣言済みのプロパティに基づいてさらに有用な統計を提供することができます。
この設定では、以下のように ImpoterNode によってインポート済みのキュレートされたスキーマを使って StatisticsGen を呼び出します。
キュレートされたスキーマを作成する
TFX の Schema
は TensorFlow メタデータの Schema
proto のインスタンスです。これは、テキスト形式で新規に作成することができますが、SchemaGen
が出発点として生成した推論済みのスキーマを使用する方が簡単です。SchemaGen
コンポーネントが実行すると、次のパスのパイプラインルートの下にスキーマが配置されます。
上記の <artifact_id>
は、MLMD におけるこのスキーマバージョンの一意の ID です。このスキーマ proto は、確実には推論できないデータセットに関する情報を通知するように変更することができます。この情報により、StatisticsGen
の出力がより有用になり、ExampleValidator
コンポーネントで実施される検証がより厳密になります。
詳細については、StatisticsGen API リファレンスをご覧ください。