Path: blob/master/site/pt-br/io/tutorials/orc.ipynb
25118 views
Copyright 2021 The TensorFlow Authors.
Leitor do Apache ORC
Visão geral
O Apache ORC é um formato popular de armazenamento baseado em colunas. O pacote tensorflow-io conta com uma implementação padrão de leitura de arquivos do Apache ORC.
Configuração
Instale os pacotes necessários e reinicie o runtime
Baixe um arquivo de dataset de amostra em ORC
O dataset que usaremos está no Iris Dataset da UCI e contém 3 classes com 50 instâncias cada, em que cada classe se refere a um tipo de planta íris. Ele tem 4 atributos: (1) sepal length (comprimento da sépala), (2) sepal width (largura da sépala), (3) petal length (comprimento da pétala) e (4) petal width (largura da pétala), e a última coluna contém o rótulo de classe.
Crie um dataset a partir do arquivo
Avalie o dataset:
Vamos conferir um exemplo completo de treinamento de modelos do tf.keras com o dataset ORC baseado no dataset Iris.
Pré-processamento de dados
Configure quais colunas são características e qual é o rótulo:
Uma função utilitária para mapear espécies para números de ponto flutuante para o treinamento do modelo:
Crie, compile e treine o modelo
Finalmente, está tudo pronto para criar o modelo e treiná-lo! Você criará um modelo do Keras com 3 camadas para prever a classe da planta íris usando o dataset processado.