Path: blob/master/site/ja/io/tutorials/genome.ipynb
25118 views
Kernel: Python 3
Copyright 2020 The TensorFlow Authors.
In [ ]:
概要
このチュートリアルでは、一般的に使用されるゲノミクス IO 機能を提供するtfio.genome
パッケージについて解説します。これは、いくつかのゲノミクスファイル形式を読み取り、データを準備するための一般的な演算を提供します (例: One-Hot エンコーディングまたは Phred クオリティスコアを確率に解析します)。
このパッケージは、Google Nucleus ライブラリを使用して、主な機能の一部を提供します。
セットアップ
In [ ]:
In [ ]:
FASTQ データ
FASTQ は、基本的な品質情報に加えて両方の配列情報を保存する一般的なゲノミクスファイル形式です。
まず、サンプルのfastq
ファイルをダウンロードします。
In [ ]:
FASTQ データの読み込み
tfio.genome.read_fastq
を使用してこのファイルを読みこみます (tf.data
API は近日中にリリースされる予定です)。
In [ ]:
ご覧のとおり、返されたfastq_data
には fastq ファイル内のすべてのシーケンスの文字列テンソル (それぞれ異なるサイズにすることが可能) であるfastq_data.sequences
、および、シーケンスで読み取られた各塩基の品質に関する Phred エンコードされた品質情報を含むfastq_data.raw_quality
が含まれています。
品質
関心がある場合は、ヘルパーオペレーションを使用して、この品質情報を確率に変換できます。
In [ ]:
One-Hot エンコーディング
また、One-Hot エンコーダ―を使用してゲノムシーケンスデータ (A
T
C
G
の塩基配列で構成される) をエンコードすることもできます。これに役立つ演算が組み込まれています。
In [ ]:
In [ ]: