Kernel: Python 3
Copyright 2021 The TensorFlow Authors.
In [1]:
Apache ORC 리더
개요
Apache ORC는 인기 있는 열 기반 스토리지 형식입니다. tensorflow-io 패키지는 Apache ORC 파일을 읽는 기본 구현을 제공합니다.
설치
필수 패키지를 설치하고 런타임을 다시 시작하십시오.
In [2]:
In [3]:
ORC로 샘플 데이터세트 파일 다운로드
여기에서 사용할 데이터세트는 UCI의 Iris Data Set입니다. 이 데이터 세트는 각각 50개 인스턴스의 3개 클래스가 포함되며, 각 클래스는 아이리스 식물의 종류를 의미합니다. 여기에는 (1) 꽃받침 길이, (2) 꽃받침 너비, (3) 꽃잎 길이, (4) 꽃잎 너비의 4가지 속성이 있으며 마지막 열은 클래스 레이블을 포함합니다.
In [4]:
파일에서 데이터세트 생성
In [35]:
데이터세트를 검사합니다.
In [42]:
아이리스 데이터세트를 기반으로 한 ORC 데이터세트로 훈련한 tf.keras 모델의 엔드 투 엔드 예시를 살펴봅니다.
데이터 전처리
어떤 열이 기능이고 어떤 열이 레이블인지 다음과 같이 구성합니다.
In [47]:
모델 훈련을 위해 종을 실수로 매핑하는 유틸리티 함수는 다음과 같습니다.
In [48]:
In [49]:
모델 구축, 컴파일 및 훈련하기
마침내 모델을 구축하고 훈련할 준비가 되셨습니다! 방금 처리한 데이터세트에서 아이리스 식물의 클래스를 예측하는 3개의 레이어 keras 모델을 구축합니다.
In [50]: