Path: blob/master/site/pt-br/io/tutorials/genome.ipynb
25118 views
Copyright 2020 The TensorFlow Authors.
Visão geral
Este tutorial demonstra o pacote tfio.genome
, que conta com funcionalidade IO de genômica usada com frequência – especificamente, ler diversos formatos de arquivo de genômica e também fornecer algumas operações comuns para preparar os dados (por exemplo, codificação one-hot ou conversão de qualidade Phred em probabilidades).
Este pacote usa a biblioteca Google Nucleus para fornecer parte da funcionalidade principal.
Configuração
Dados FASTQ
FASTQ é um formato de arquivo de genômica comum que armazena tanto as informações de sequência quanto as informações de qualidade base.
Primeiro, vamos baixar um arquivo fastq
de amostra.
Leitura de dados FASTQ
Agora, vamos usar tfio.genome.read_fastq
para ler esse arquivo (é importante saber que uma API tf.data
será lançada em breve).
Como podemos ver, os fastq_data
retornados têm fastq_data.sequences
, que é um tensor de strings contendo todas as sequências no arquivo fastq (e cada um pode ter um tamanho diferente) junto com fastq_data.raw_quality
, que inclui as informações de qualidade codificadas em Phred sobre a qualidade de cada leitura base na sequência.
Qualidade
Você pode usar uma operação helper para converter essas informações de qualidade em probabilidades, caso tenha interesse nisso.
Codificações one-hot
Talvez você também queira codificar os dados da sequência de genoma (que consistem em bases A
T
C
G
) usando um encoder one-hot. Uma operação integrada pode ajudar.