Path: blob/master/site/es-419/io/tutorials/genome.ipynb
25118 views
Copyright 2020 The TensorFlow Authors.
Descripción general
En este tutorial se enseña el paquete tfio.genome
que proporciona la funcionalidad IO genómica de uso común, es decir, leer varios formatos de archivos genómicos y también proporcionar algunas operaciones comunes para preparar los datos (por ejemplo, una codificación en un solo paso o analizar la calidad de Phred en probabilidades).
Este paquete usa la biblioteca de Google Nucleus para proporcionar algunas de las funciones principales.
Preparación
Datos FASTQ
FASTQ es un formato de archivo genómico común que almacena información de secuencia además de información de calidad de la base.
Primero, descarguemos un archivo fastq
de muestra.
Leer datos FASTQ
Ahora, usemos tfio.genome.read_fastq
para leer este archivo (tenga en cuenta que próximamente habrá una API tf.data
).
Como puede ver, el fastq_data
devuelto tiene fastq_data.sequences
, que es un tensor de cadena de todas las secuencias en el archivo fastq (cada una de las cuales puede tener un tamaño diferente) junto con fastq_data.raw_quality
que incluye información de calidad codificada por Phred sobre la calidad de cada lectura base en la secuencia.
Calidad
Si le interesa, puede usar una operación ayudante para convertir esta información de calidad en probabilidades.
Codificaciones en un solo paso
Es posible que también desee codificar los datos de la secuencia del genoma (que consta de bases A
T
C
G
) con un codificador en un solo paso. Hay una operación integrada que puede ayudar con esto.