Path: blob/master/site/ko/datasets/dataset_collections.ipynb
25115 views
Copyright 2022 The TensorFlow Authors.
데이터세트 컬렉션
개요
데이터세트 컬렉션은 기존 TFDS 데이터세트에 대한 임의의 수를 함께 그룹화하고 이에 대해 간단한 연산을 수행할 수 있는 간단한 방법을 제공합니다.
이는 예를 들어 동일한 작업과 관련된 여러 데이터세트를 함께 그룹화하거나 여러 작업의 고정된 수에 대한 모델을 쉽게 벤치마킹하는 데 유용할 수 있습니다.
설치
시작하려면 몇 가지 패키지를 설치합니다.
TensorFlow 및 Tensorflow Datasets 패키지를 개발 환경에 가져옵니다.
데이터세트 컬렉션은 Tensorflow Datasets(TFDS)의 기존 데이터세트에 대한 임의의 수를 함께 그룹화하고 이에 대해 간단한 연산을 수행할 수 있는 간단한 방법을 제공합니다.
이는 예를 들어 동일한 작업과 관련된 여러 데이터세트를 함께 그룹화하거나 여러 작업의 고정된 수에 대한 모델을 쉽게 벤치마킹하는 데 유용할 수 있습니다.
사용 가능한 데이터세트 컬렉션 찾기
모든 데이터세트 컬렉션 빌더는 tfds.core.dataset_collection_builder.DatasetCollection
의 하위 클래스입니다.
사용 가능한 빌더 목록을 얻으려면, tfds.list_dataset_collections()
를 사용합니다.
데이터세트 컬렉션 로드 및 검사
데이터세트 컬렉션을 로드하는 가장 쉬운 방법은 tfds.dataset_collection
명령을 사용하여 DatasetCollectionLoader
객체를 인스턴스화하는 것입니다.
특정 데이터세트 컬렉션 버전은 TFDS 데이터세트과 동일한 구문에 따라 로드할 수 있습니다.
데이터세트 컬렉션 로더는 컬렉션에 대한 정보를 표시할 수 있습니다.
데이터세트 로더는 또한 컬렉션에 포함된 데이터세트에 대한 정보도 표시할 수 있습니다.
데이터세트 컬렉션에서 하나의 데이터세트 로딩
컬렉션에서 하나의 데이터세트를 로드하는 가장 쉬운 방법은 DatasetCollectionLoader
객체의 load_dataset
메서드를 사용하는 것이며, 이는 tfds.load
를 호출하여 필요한 데이터세트를 호출합니다.
이 호출은 분할 이름 사전과 해당 tf.data.Dataset
를 반환합니다.
load_dataset
는 다음 선택적 매개변수를 받아들입니다.
split
: 로드할 분할입니다. 이는 단일 분할(split="test"
) 또는 분할 목록 (split=["train", "test"]
)을 받아들입니다. 지정되지 않은 경우, 주어진 데이터세트에 대한 모든 분할을 로드합니다.loader_kwargs
:tfds.load
함수로 전달될 키워드 인수입니다. 여러 로딩 옵션에 대한 종합적인 개요에 관한tfds.load
설명서를 참조하세요.
데이터세트 컬렉션에서 여러 데이터세트 로딩
컬렉션에서 여러 데이터세트를 로드하는 가장 쉬운 방법은 DatasetCollectionLoader
객체의 load_datasets
메서드를 사용하는 것이며, 이는 tfds.load
를 호출하여 필요한 데이터세트를 호출합니다.
이는 다음 예시와 같이 각각이 분할 이름의 사전 및 해당 tf.data.Dataset
와 관련된 데이터세트 이름의 사전을 반환합니다.
load_all_datasets
메서드는 주어진 컬렉션을 위해 모든 사용 가능한 데이터세트를 로드합니다.
load_datasets
메서드는 다음 선택적 매개변수를 받아들입니다.
split
: 로드할 분할입니다. 이는 단일 분할(split="test"
) 또는 분할 목록 (split=["train", "test"]
)을 받아들입니다. 지정되지 않은 경우, 주어진 데이터세트에 대한 모든 분할을 로드합니다.loader_kwargs
:tfds.load
함수로 전달될 키워드 인수입니다. 여러 로딩 옵션에 대한 종합적인 개요는tfds.load
설명서를 참조하세요.
loader_kwargs
지정하기
loader_kwargs
는 tfds.load
함수로 전달될 선택적인 키워드 인수입니다. 다음 세 가지 방법으로 지정될 수 있습니다.
DatasetCollectionLoader
클래스를 초기화하는 경우:
DatasetCollectioLoader
의set_loader_kwargs
메서드 사용:
load_dataset
,load_datasets
및load_all_datasets
메서드에 대한 선택적 매개변수입니다.
피드백
데이터세트 생성 워크플로를 개선하기 위해 지속적으로 노력하고 있지만 문제에 대해 알고 있는 경우에만 그렇게 할 수 있습니다. 데이터세트를 생성하는 동안 어떤 문제, 오류를 경험하셨나요? 헷갈리거나 상용구이거나 아예 작동하지 않는 부분이 있었나요? GitHub에서 피드백을 공유해 주세요.