Path: blob/master/site/pt-br/tfx/guide/statsgen.md
25118 views
O componente de pipeline StatisticsGen TFX
O componente de pipeline StatisticsGen TFX gera estatísticas de características sobre dados de treinamento e serviço, que podem ser usados por outros componentes de pipeline. O StatisticsGen usa o Beam para escalar grandes datasets.
Consome: datasets criados por um componente de pipeline ExampleGen.
Produz: estatísticas do dataset.
StatisticsGen e TensorFlow Data Validation
O StatisticsGen faz uso extensivo do TensorFlow Data Validation para gerar estatísticas a partir do seu dataset.
Usando o componente StatsGen
Um componente de pipeline StatisticsGen geralmente é muito fácil de implantar e requer pouca personalização. O código típico está mostrado a seguir:
Usando o componente StatsGen com um esquema
Para a primeira execução de um pipeline, a saída do StatisticsGen será usada para inferir um esquema. No entanto, em execuções subsequentes você poderá ter um esquema curado manualmente que contém informações adicionais sobre seu dataset. Ao fornecer este esquema ao StatisticsGen, o TFDV poderá fornecer estatísticas mais úteis com base nas propriedades declaradas do seu dataset.
Nesta configuração, você invocará o StatisticsGen com um esquema selecionado que foi importado por um ImporterNode da seguinte forma:
Criando um esquema curado
Schema
, no TFX, é uma instância de Schema
proto do TensorFlow Metadata. Ele pode ser escrito em formato texto do zero. No entanto, é mais fácil usar o esquema inferido produzido pelo SchemaGen
como ponto de partida. Depois que o componente SchemaGen
for executado, o esquema estará localizado na raiz do pipeline no seguinte caminho:
Onde <artifact_id>
representa um ID exclusivo para esta versão do esquema no MLMD. Este schema proto pode então ser modificado para comunicar informações sobre o dataset que não podem ser inferidas de forma confiável, o que deixará a saída do StatisticsGen
mais útil e a validação realizada no componente ExampleValidator
mais rigorosa.
Mais detalhes estão disponíveis na Referência da API StatisticsGen.