Path: blob/master/site/zh-cn/io/tutorials/genome.ipynb
25118 views
Kernel: Python 3
Copyright 2020 The TensorFlow Authors.
In [ ]:
概述
本教程将演示 tfio.genome
软件包,其中提供了常用的基因组学 IO 功能,即读取多种基因组学文件格式,以及提供一些用于准备数据(例如,独热编码或将 Phred 质量解析为概率)的常用运算。
此软件包使用 Google Nucleus 库来提供一些核心功能。
设置
In [ ]:
In [ ]:
FASTQ 数据
FASTQ 是一种常见的基因组学文件格式,除了基本的质量信息外,还存储序列信息。
首先,让我们下载一个样本 fastq
文件。
In [ ]:
读取 FASTQ 数据
现在,让我们使用 tfio.genome.read_fastq
读取此文件(请注意,tf.data
API 即将发布)。
In [ ]:
如您所见,返回的 fastq_data
具有 fastq_data.sequences
,后者是 fastq 文件中所有序列的字符串张量(大小可以不同);并具有 fastq_data.raw_quality
,其中包含与在序列中读取的每个碱基的质量有关的 Phred 编码质量信息。
质量
如有兴趣,您可以使用辅助运算将此质量信息转换为概率。
In [ ]:
独热编码
您可能还需要使用独热编码器对基因组序列数据(由 A
T
C
G
碱基组成)进行编码。有一项内置运算可以帮助编码。
In [ ]:
In [ ]: