GitHub Repository: tensorflow/docs-l10n
Path: blob/master/site/ko/datasets/dataset_collections.ipynb
³⁸⁹⁵⁶ views

Kernel: Python 3

Copyright 2022 The TensorFlow Authors.

In [ ]:

#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

데이터세트 컬렉션

개요

데이터세트 컬렉션은 기존 TFDS 데이터세트에 대한 임의의 수를 함께 그룹화하고 이에 대해 간단한 연산을 수행할 수 있는 간단한 방법을 제공합니다.

이는 예를 들어 동일한 작업과 관련된 여러 데이터세트를 함께 그룹화하거나 여러 작업의 고정된 수에 대한 모델을 쉽게 벤치마킹하는 데 유용할 수 있습니다.

설치

시작하려면 몇 가지 패키지를 설치합니다.

In [ ]:

# Use tfds-nightly to ensure access to the latest features.
!pip install -q tfds-nightly tensorflow
!pip install -U conllu

TensorFlow 및 Tensorflow Datasets 패키지를 개발 환경에 가져옵니다.

In [ ]:

import pprint

import tensorflow as tf
import tensorflow_datasets as tfds

데이터세트 컬렉션은 Tensorflow Datasets(TFDS)의 기존 데이터세트에 대한 임의의 수를 함께 그룹화하고 이에 대해 간단한 연산을 수행할 수 있는 간단한 방법을 제공합니다.

사용 가능한 데이터세트 컬렉션 찾기

모든 데이터세트 컬렉션 빌더는 tfds.core.dataset_collection_builder.DatasetCollection의 하위 클래스입니다.

사용 가능한 빌더 목록을 얻으려면, tfds.list_dataset_collections()를 사용합니다.

In [ ]:

tfds.list_dataset_collections()

데이터세트 컬렉션 로드 및 검사

데이터세트 컬렉션을 로드하는 가장 쉬운 방법은 tfds.dataset_collection 명령을 사용하여 DatasetCollectionLoader 객체를 인스턴스화하는 것입니다.

In [ ]:

collection_loader = tfds.dataset_collection('xtreme')

특정 데이터세트 컬렉션 버전은 TFDS 데이터세트과 동일한 구문에 따라 로드할 수 있습니다.

In [ ]:

collection_loader = tfds.dataset_collection('xtreme:1.0.0')

데이터세트 컬렉션 로더는 컬렉션에 대한 정보를 표시할 수 있습니다.

In [ ]:

collection_loader.print_info()

데이터세트 로더는 또한 컬렉션에 포함된 데이터세트에 대한 정보도 표시할 수 있습니다.

In [ ]:

collection_loader.print_datasets()

데이터세트 컬렉션에서 하나의 데이터세트 로딩

컬렉션에서 하나의 데이터세트를 로드하는 가장 쉬운 방법은 DatasetCollectionLoader 객체의 load_dataset 메서드를 사용하는 것이며, 이는 tfds.load를 호출하여 필요한 데이터세트를 호출합니다.

이 호출은 분할 이름 사전과 해당 tf.data.Dataset를 반환합니다.

In [ ]:

splits = collection_loader.load_dataset("ner")

pprint.pprint(splits)

load_dataset는 다음 선택적 매개변수를 받아들입니다.

split: 로드할 분할입니다. 이는 단일 분할(split="test") 또는 분할 목록 (split=["train", "test"])을 받아들입니다. 지정되지 않은 경우, 주어진 데이터세트에 대한 모든 분할을 로드합니다.
loader_kwargs: tfds.load 함수로 전달될 키워드 인수입니다. 여러 로딩 옵션에 대한 종합적인 개요에 관한 tfds.load 설명서를 참조하세요.

데이터세트 컬렉션에서 여러 데이터세트 로딩

컬렉션에서 여러 데이터세트를 로드하는 가장 쉬운 방법은 DatasetCollectionLoader 객체의 load_datasets 메서드를 사용하는 것이며, 이는 tfds.load를 호출하여 필요한 데이터세트를 호출합니다.

이는 다음 예시와 같이 각각이 분할 이름의 사전 및 해당 tf.data.Dataset와 관련된 데이터세트 이름의 사전을 반환합니다.

In [ ]:

datasets = collection_loader.load_datasets(['xnli', 'bucc'])

pprint.pprint(datasets)

load_all_datasets 메서드는 주어진 컬렉션을 위해 모든 사용 가능한 데이터세트를 로드합니다.

In [ ]:

all_datasets = collection_loader.load_all_datasets()

pprint.pprint(all_datasets)

load_datasets 메서드는 다음 선택적 매개변수를 받아들입니다.

split: 로드할 분할입니다. 이는 단일 분할(split="test") 또는 분할 목록 (split=["train", "test"])을 받아들입니다. 지정되지 않은 경우, 주어진 데이터세트에 대한 모든 분할을 로드합니다.
loader_kwargs: tfds.load 함수로 전달될 키워드 인수입니다. 여러 로딩 옵션에 대한 종합적인 개요는 tfds.load 설명서를 참조하세요.

`loader_kwargs` 지정하기

loader_kwargs는 tfds.load 함수로 전달될 선택적인 키워드 인수입니다. 다음 세 가지 방법으로 지정될 수 있습니다.

DatasetCollectionLoader 클래스를 초기화하는 경우:

In [ ]:

collection_loader = tfds.dataset_collection('xtreme', loader_kwargs=dict(split='train', batch_size=10, try_gcs=False))

DatasetCollectioLoader의 set_loader_kwargs 메서드 사용:

In [ ]:

collection_loader.set_loader_kwargs(dict(split='train', batch_size=10, try_gcs=False))

load_dataset, load_datasets 및 load_all_datasets 메서드에 대한 선택적 매개변수입니다.

In [ ]:

dataset = collection_loader.load_dataset('ner', loader_kwargs=dict(split='train', batch_size=10, try_gcs=False))

피드백

데이터세트 생성 워크플로를 개선하기 위해 지속적으로 노력하고 있지만 문제에 대해 알고 있는 경우에만 그렇게 할 수 있습니다. 데이터세트를 생성하는 동안 어떤 문제, 오류를 경험하셨나요? 헷갈리거나 상용구이거나 아예 작동하지 않는 부분이 있었나요? GitHub에서 피드백을 공유해 주세요.

Copyright 2022 The TensorFlow Authors.

데이터세트 컬렉션

개요

설치

사용 가능한 데이터세트 컬렉션 찾기

데이터세트 컬렉션 로드 및 검사

데이터세트 컬렉션에서 하나의 데이터세트 로딩

데이터세트 컬렉션에서 여러 데이터세트 로딩

`loader_kwargs` 지정하기

피드백

Product

Resources

Company

Copyright 2022 The TensorFlow Authors.

데이터세트 컬렉션

개요

설치

사용 가능한 데이터세트 컬렉션 찾기

데이터세트 컬렉션 로드 및 검사

데이터세트 컬렉션에서 하나의 데이터세트 로딩

데이터세트 컬렉션에서 여러 데이터세트 로딩

loader_kwargs 지정하기

피드백

`loader_kwargs` 지정하기