Path: blob/master/site/ja/hub/tutorials/yamnet.ipynb
25118 views
Copyright 2020 The TensorFlow Hub Authors.
Licensed under the Apache License, Version 2.0 (the "License");
YAMNet によるサウンドの分類
YAMNet は、521 個のオーディオイベントクラスを、YAMNet がトレーニングに使用した AudioSet-YouTube コーパスから予測するディープネットです。Mobilenet_v1 という Depthwise-Separable Convolution(深さ方向に分離可能な畳み込み)アーキテクチャを使用しています。
TensorFlow Hub からモデルを読み込みます。
注意: ドキュメントを読むには、モデルの url に従ってください。
models アセットから labels ファイルが読み込まれます。これは model.class_map_path()
にあります。class_names
変数で読み込みます。
読み込まれたオーディオが適切な sample_rate(16K)であることを確認して変換するメソッドを追加します。これがなければ、モデルの結果に影響があります。
サウンドファイルのダウンロードと準備
ここでは、wav ファイルをダウンロードして聴くことができるようにします。利用できるファイルがある場合は、Colab にアップロードしてそれを使用してください。
注意: 期待されるオーディオファイルは、サンプリングレートが 16kHz の mono wav ファイルである必要があります。
wav_data
を、[-1.0, 1.0]
の値に正規化する必要があります(モデルのドキュメントで指示されています)。
モデルを実行する
これは簡単なステップです。準備済みのデータを使用して、モデルを呼び出し、スコア、埋め込み、およびスペクトログラムを取得します。
使用するメインの結果は、スコアです。スペクトログラムについては、後で視覚化を行うために使用します。
視覚化
YAMNet は、視覚化に使用できる追加情報も返します。波形、スペクトログラム、および推論された上位クラスを確認してみましょう。