Path: blob/master/site/ja/datasets/add_dataset_collection.md
25115 views
新しいデータセットコレクションを追加する
新しいデータセットコレクションを作成する(TFDS または独自のリポジトリ)には、このガイドに従います。
概要
新しいデータセットコレクション my_collection
を TFDS に追加するには、以下のファイルを含む my_collection
フォルダを生成する必要があります。
原則として、新しいデータセットコレクションは、TFDS リポジトリの tensorflow_datasets/dataset_collections/
フォルダに追加する必要があります。
データセットコレクションを書く
すべてのデータセットコレクションは、tfds.core.dataset_collection_builder.DatasetCollection
のサブクラスに実装されます。
以下は、データセットコレクションビルダーの最低限の例です。my_collection.py
ファイルに定義されています。
次のセクションでは、上書きする 2 つの抽象メソッドを説明します。
info
: データセットコレクションのメタデータ
info
メソッドは、コレクションのメタデータを含む dataset_collection_builder.DatasetCollectionInfo
を返します。
データセットコレクションの info には、以下の 4 つのフィールドが含まれます。
name: データセットコレクションの名前。
description: マークダウンでフォーマットされたデータセットコレクションの説明。データセットの description を定義するには、次の 2 つの方法があります。(1)コレクションの
my_collection.py
ファイルに(複数行の)文字列を直接書き込みます。TFDS データセットで行う方法に似ています。(2)description.md
ファイルに書き込み、データセットコレクションのフォルダに配置します。release_notes: データセットコレクションのバージョンから対応するリリースノートへのマッピング。
citation: データセットコレクションに関するオプションの BibTeX 引用(リスト)。データセットコレクションの citation を定義するには、次の 2 つの方法があります。(1)コレクションの
my_collection.py
ファイルに(複数行の)文字列を直接書き込みます。TFDS データセットで行う方法に似ています。(2)citations.bib
ファイルに書き込み、データセットコレクションのフォルダに配置します。
datasets
: コレクションのデータセットを定義する
datasets
メソッドは、コレクションの TFDS データセットを返します。
バージョンのディクショナリとして定義されており、データセットコレクションの進化が記述されます。
バージョンごとに、含まれている TFDS データセットはデータセットから naming.DatasetReference
にディクショナリとして保存されます。以下に例を示します。
naming.references_for
メソッドは、上記と同じことをよりコンパクトに表現します。
データセットコレクションをユニットテストする
DatasetCollectionTestBase はデータセットコレクションの基底テストクラスです。データセットコレクションが正しく登録されていること、またそのデータセットが TFDS に存在することを保証するための多数の単純なチェックを提供します。
設定する必要のある唯一のクラス属性は DATASET_COLLECTION_CLASS
です。これは、テストするデータセットコレクションのクラスオブジェクトを指定します。
また、以下のクラス属性も設定可能です。
VERSION
: テストの実行に使用されるデータセットコレクションのバージョン(デフォルトは最新のバージョンです)。DATASETS_TO_TEST
: TFDS での存在をテストするデータセットを含むリスト(デフォルトはコレクション内のすべてのデータセットです)。CHECK_DATASETS_VERSION
: データセットコレクションのバージョン管理されたデータセットの存在をチェックするか、またはデフォルトバージョンをチェックするか(デフォルトは true です)。
データセットコレクションの最も単純で有効なテストは、以下のようになります。
以下のコマンドを実行し、データセットコレクションをテストします。
フィードバック
データセット作成ワークフローは継続的な改善が進められていますが、問題を認識していなければ、改善することはできません。データセットコレクションの作成中にどのような問題またはエラーが発生しましたか?混乱したり、初めて使用したときに機能しなかった部分はありませんでしたか?
フィードバックを GitHub にお送りください。