Path: blob/master/site/ko/hub/tutorials/yamnet.ipynb
25118 views
Kernel: Python 3
Copyright 2020 The TensorFlow Hub Authors.
Licensed under the Apache License, Version 2.0 (the "License");
In [ ]:
YAMNet을 사용한 사운드 분류
YAMNet은 훈련된 AudioSet-YouTube 코퍼스에서 521개의 오디오 이벤트 클래스를 예측하는 딥 넷입니다. 여기에는 Mobilenet_v1 심도 분리형 컨볼루션 아키텍처가 사용됩니다.
In [ ]:
TensorFlow 허브에서 모델을 로드합니다.
참고: 문서를 읽으려면 모델의 URL을 따르세요.
In [ ]:
레이블 파일은 모델 자산에서 로드되며 model.class_map_path()
에 있습니다. class_names
변수에 이를 로드합니다.
In [ ]:
로드된 오디오가 적절한 sample_rate(16K)인지 확인하고 변환하는 메서드를 추가합니다. 그렇지 않으면 모델의 결과에 영향을 미칩니다.
In [ ]:
사운드 파일 다운로드 및 준비하기
여기에서 wav 파일을 다운로드하여 들을 수 있습니다. 이미 사용 가능한 파일이 있는 경우, colab에 업로드하고 대신 사용하세요.
참고: 예상되는 오디오 파일은 16kHz 샘플링 속도의 모노 wav 파일이어야 합니다.
In [ ]:
In [ ]:
In [ ]:
wav_data
는 [-1.0, 1.0]
의 값으로 정규화되어야 합니다(모델의 문서에 명시되어 있음).
In [ ]:
모델 실행하기
이제 쉬운 부분: 이미 준비된 데이터를 사용하여 모델을 호출하고 점수, 임베딩 및 스펙트로그램을 얻습니다.
점수는 사용할 주요 결과입니다. 스펙트로그램은 나중에 시각화를 수행하는 데 사용합니다.
In [ ]:
In [ ]:
시각화
YAMNet은 시각화에 사용할 수 있는 몇 가지 추가 정보도 반환합니다. 추론된 파형, 스펙트로그램 및 상위 클래스를 살펴보겠습니다.
In [ ]: