CoCalc -- genome.ipynb

GitHub Repository: tensorflow/docs-l10n
Path: blob/master/site/es-419/io/tutorials/genome.ipynb
³⁸⁹⁰⁶ views

Kernel: Python 3

Copyright 2020 The TensorFlow Authors.

In [ ]:

#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

Ver en TensorFlow.org

Ejecutar en Google Colab

Ver código fuente en GitHub

Descargar el bloc de notas

Descripción general

En este tutorial se enseña el paquete tfio.genome que proporciona la funcionalidad IO genómica de uso común, es decir, leer varios formatos de archivos genómicos y también proporcionar algunas operaciones comunes para preparar los datos (por ejemplo, una codificación en un solo paso o analizar la calidad de Phred en probabilidades).

Este paquete usa la biblioteca de Google Nucleus para proporcionar algunas de las funciones principales.

Preparación

In [ ]:

try:
  %tensorflow_version 2.x
except Exception:
  pass
!pip install tensorflow-io

In [ ]:

import tensorflow_io as tfio
import tensorflow as tf

Datos FASTQ

FASTQ es un formato de archivo genómico común que almacena información de secuencia además de información de calidad de la base.

Primero, descarguemos un archivo fastq de muestra.

In [ ]:

# Download some sample data:
!curl -OL https://raw.githubusercontent.com/tensorflow/io/master/tests/test_genome/test.fastq

Leer datos FASTQ

Ahora, usemos tfio.genome.read_fastq para leer este archivo (tenga en cuenta que próximamente habrá una API tf.data).

In [ ]:

fastq_data = tfio.genome.read_fastq(filename="test.fastq")
print(fastq_data.sequences)
print(fastq_data.raw_quality)

Como puede ver, el fastq_data devuelto tiene fastq_data.sequences, que es un tensor de cadena de todas las secuencias en el archivo fastq (cada una de las cuales puede tener un tamaño diferente) junto con fastq_data.raw_quality que incluye información de calidad codificada por Phred sobre la calidad de cada lectura base en la secuencia.

Calidad

Si le interesa, puede usar una operación ayudante para convertir esta información de calidad en probabilidades.

In [ ]:

quality = tfio.genome.phred_sequences_to_probability(fastq_data.raw_quality)
print(quality.shape)
print(quality.row_lengths().numpy())
print(quality)

Codificaciones en un solo paso

Es posible que también desee codificar los datos de la secuencia del genoma (que consta de bases A T C G) con un codificador en un solo paso. Hay una operación integrada que puede ayudar con esto.

In [ ]:

print(tfio.genome.sequences_to_onehot.__doc__)

In [ ]:

print(tfio.genome.sequences_to_onehot.__doc__)