Path: blob/master/site/ko/io/tutorials/genome.ipynb
25118 views
Kernel: Python 3
Copyright 2020 The TensorFlow Authors.
In [ ]:
개요
이 튜토리얼은 일반적으로 사용되는 게놈 IO 기능을 제공하는 tfio.genome
패키지를 시연합니다. 즉, 여러 게놈 파일 형식을 읽고 데이터를 준비하기 위한 몇 가지 일반적인 연산도 제공합니다(예: 원-핫 인코딩 또는 Phred 품질을 확률로 구문 분석).
이 패키지는 Google Nucleus 라이브러리를 사용하여 일부 핵심 기능을 제공합니다.
설정
In [ ]:
In [ ]:
FASTQ 데이터
FASTQ는 기본 품질 정보와 함께 두 가지 시퀀스 정보를 모두 저장하는 일반적인 게놈 파일 형식입니다.
먼저, 샘플 fastq
파일을 다운로드하겠습니다.
In [ ]:
FASTQ 데이터 읽기
이제 tfio.genome.read_fastq
를 사용하여 이 파일을 읽겠습니다(tf.data
API는 곧 제공 예정).
In [ ]:
보는 바와 같이 반환된 fastq_data
에는 시퀀스에서 읽은 각 기본 정보의 품질에 관한 Phred 인코딩 품질 정보를 포함하는 fastq_data.raw_quality
와 함께 fastq 파일(각각 크기가 다를 수 있음)에 있는 모든 시퀀스의 문자열 텐서인 fastq_data.sequences
가 있습니다.
품질
관심이 있는 경우 도우미 op를 사용하여 이 품질 정보를 확률로 변환할 수 있습니다.
In [ ]:
원-핫 인코딩
또한, 원-핫 인코더를 사용하여 A
T
C
G
염기 서열로 구성된 게놈 시퀀스 데이터를 인코딩할 수도 있습니다. 인코딩에 도움이 되는 내장 연산이 있습니다.
In [ ]:
In [ ]: