Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
tensorflow
GitHub Repository: tensorflow/docs-l10n
Path: blob/master/site/ko/datasets/dataset_collections.ipynb
25115 views
Kernel: Python 3
#@title Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file except in compliance with the License. # You may obtain a copy of the License at # # https://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, software # distributed under the License is distributed on an "AS IS" BASIS, # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. # See the License for the specific language governing permissions and # limitations under the License.

데이터세트 컬렉션

개요

데이터세트 컬렉션은 기존 TFDS 데이터세트에 대한 임의의 수를 함께 그룹화하고 이에 대해 간단한 연산을 수행할 수 있는 간단한 방법을 제공합니다.

이는 예를 들어 동일한 작업과 관련된 여러 데이터세트를 함께 그룹화하거나 여러 작업의 고정된 수에 대한 모델을 쉽게 벤치마킹하는 데 유용할 수 있습니다.

설치

시작하려면 몇 가지 패키지를 설치합니다.

# Use tfds-nightly to ensure access to the latest features. !pip install -q tfds-nightly tensorflow !pip install -U conllu

TensorFlow 및 Tensorflow Datasets 패키지를 개발 환경에 가져옵니다.

import pprint import tensorflow as tf import tensorflow_datasets as tfds

데이터세트 컬렉션은 Tensorflow Datasets(TFDS)의 기존 데이터세트에 대한 임의의 수를 함께 그룹화하고 이에 대해 간단한 연산을 수행할 수 있는 간단한 방법을 제공합니다.

이는 예를 들어 동일한 작업과 관련된 여러 데이터세트를 함께 그룹화하거나 여러 작업의 고정된 수에 대한 모델을 쉽게 벤치마킹하는 데 유용할 수 있습니다.

사용 가능한 데이터세트 컬렉션 찾기

모든 데이터세트 컬렉션 빌더는 tfds.core.dataset_collection_builder.DatasetCollection의 하위 클래스입니다.

사용 가능한 빌더 목록을 얻으려면, tfds.list_dataset_collections()를 사용합니다.

tfds.list_dataset_collections()

데이터세트 컬렉션 로드 및 검사

데이터세트 컬렉션을 로드하는 가장 쉬운 방법은 tfds.dataset_collection 명령을 사용하여 DatasetCollectionLoader 객체를 인스턴스화하는 것입니다.

collection_loader = tfds.dataset_collection('xtreme')

특정 데이터세트 컬렉션 버전은 TFDS 데이터세트과 동일한 구문에 따라 로드할 수 있습니다.

collection_loader = tfds.dataset_collection('xtreme:1.0.0')

데이터세트 컬렉션 로더는 컬렉션에 대한 정보를 표시할 수 있습니다.

collection_loader.print_info()

데이터세트 로더는 또한 컬렉션에 포함된 데이터세트에 대한 정보도 표시할 수 있습니다.

collection_loader.print_datasets()

데이터세트 컬렉션에서 하나의 데이터세트 로딩

컬렉션에서 하나의 데이터세트를 로드하는 가장 쉬운 방법은 DatasetCollectionLoader 객체의 load_dataset 메서드를 사용하는 것이며, 이는 tfds.load를 호출하여 필요한 데이터세트를 호출합니다.

이 호출은 분할 이름 사전과 해당 tf.data.Dataset를 반환합니다.

splits = collection_loader.load_dataset("ner") pprint.pprint(splits)

load_dataset는 다음 선택적 매개변수를 받아들입니다.

  • split: 로드할 분할입니다. 이는 단일 분할(split="test") 또는 분할 목록 (split=["train", "test"])을 받아들입니다. 지정되지 않은 경우, 주어진 데이터세트에 대한 모든 분할을 로드합니다.

  • loader_kwargs: tfds.load 함수로 전달될 키워드 인수입니다. 여러 로딩 옵션에 대한 종합적인 개요에 관한 tfds.load 설명서를 참조하세요.

데이터세트 컬렉션에서 여러 데이터세트 로딩

컬렉션에서 여러 데이터세트를 로드하는 가장 쉬운 방법은 DatasetCollectionLoader 객체의 load_datasets 메서드를 사용하는 것이며, 이는 tfds.load를 호출하여 필요한 데이터세트를 호출합니다.

이는 다음 예시와 같이 각각이 분할 이름의 사전 및 해당 tf.data.Dataset와 관련된 데이터세트 이름의 사전을 반환합니다.

datasets = collection_loader.load_datasets(['xnli', 'bucc']) pprint.pprint(datasets)

load_all_datasets 메서드는 주어진 컬렉션을 위해 모든 사용 가능한 데이터세트를 로드합니다.

all_datasets = collection_loader.load_all_datasets() pprint.pprint(all_datasets)

load_datasets 메서드는 다음 선택적 매개변수를 받아들입니다.

  • split: 로드할 분할입니다. 이는 단일 분할(split="test") 또는 분할 목록 (split=["train", "test"])을 받아들입니다. 지정되지 않은 경우, 주어진 데이터세트에 대한 모든 분할을 로드합니다.

  • loader_kwargs: tfds.load 함수로 전달될 키워드 인수입니다. 여러 로딩 옵션에 대한 종합적인 개요는 tfds.load 설명서를 참조하세요.

loader_kwargs 지정하기

loader_kwargstfds.load 함수로 전달될 선택적인 키워드 인수입니다. 다음 세 가지 방법으로 지정될 수 있습니다.

  1. DatasetCollectionLoader 클래스를 초기화하는 경우:

collection_loader = tfds.dataset_collection('xtreme', loader_kwargs=dict(split='train', batch_size=10, try_gcs=False))
  1. DatasetCollectioLoaderset_loader_kwargs 메서드 사용:

collection_loader.set_loader_kwargs(dict(split='train', batch_size=10, try_gcs=False))
  1. load_dataset, load_datasetsload_all_datasets 메서드에 대한 선택적 매개변수입니다.

dataset = collection_loader.load_dataset('ner', loader_kwargs=dict(split='train', batch_size=10, try_gcs=False))

피드백

데이터세트 생성 워크플로를 개선하기 위해 지속적으로 노력하고 있지만 문제에 대해 알고 있는 경우에만 그렇게 할 수 있습니다. 데이터세트를 생성하는 동안 어떤 문제, 오류를 경험하셨나요? 헷갈리거나 상용구이거나 아예 작동하지 않는 부분이 있었나요? GitHub에서 피드백을 공유해 주세요.