Path: blob/master/site/ja/io/tutorials/audio.ipynb
38957 views
Copyright 2020 The TensorFlow IO Authors.
音声データの準備と拡張
概要
自動音声認識における大きな課題の 1 つは、音声データの準備と拡張です。音声データ分析は、時間または周波数領域にあり可能性があるため、画像などのほかのデータソースと比べさらに複雑化します。
TensorFlow エコシステムの一環として、tensorflow-io パッケージには、多数の有用な音声関連の API が提供されており、音声データの準備と拡張を単純化することができます。
セットアップ
必要なパッケージをインストールし、ランタイムを再起動する
使用方法
音声ファイルを読み取る
TensorFlow IO では、クラス tfio.audio.AudioIOTensor を使用して、音声ファイルを遅延読み込みされる IOTensor に読み出すことができます。
上記の例の Flac ファイル brooklyn.flac は、google cloud でパブリックアクセスが可能な音声クリップから得たものです。
GCS は TensorFlow でサポートされているファイルシステムであるため、GCS アドレス gs://cloud-samples-tests/speech/brooklyn.flac が直接使用されています。Flac 形式のほか、WAV、Ogg、MP3、および MP4A 形式も AudioIOTensor の自動ファイル形式検出でサポートされています。
AudioIOTensor は遅延読み込みされるため、最初は形状、dtype、およびサンプルレートしか表示されません。AudioIOTensor の形状は [samples, channels] で表現され、読み込んだ音声クリップが int16 型の 28979 サンプルを含む Mono チャンネルであることを示します。
音声クリップのコンテンツは、to_tensor() 経由で AudioIOTensor から Tensor に変換するか、スライスによって、必要に応じてのみ読み取られます。スライスは、特に大きな音声クリップのほんの一部のみが必要である場合に役立ちます。
次のようにして、音声を再生できます。
テンソルを浮動小数点数に変換して音声クリップをグラフに表示するとより便利です。
ノイズをトリムする
音声からノイズを取り除く方が好ましい場合があります。これは、API tfio.audio.trim を使用して行います。API から戻されるのは、セグメントの [start, stop] 位置のペアです。
フェードインとフェードアウト
音声エンジニアリングの有用なテクニックには、フェードという、音声信号を徐々に増加または減少させるものがあります。これは、tfio.audio.fade を使用して行います。tfio.audio.fade は、linear、logarithmic、または exponential などのさまざまな形状のフェードをサポートしています。
スペクトログラム
多くの場合、高度な音声処理は、時間の経過に伴う周波数の変化に対応します。tensorflow-io では、tfio.audio.spectrogram を使って波形を変換することができます。
異なるスケールへの追加の変換も可能です。
SpecAugment
上述したデータの準備と拡張 API のほか、tensorflow-io パッケージには、高度なスペクトログラムの拡張、特に SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition(Park et al., 2019)で論じられている周波数と時間のマスキングも含まれています。
周波数マスキング
周波数マスキングでは、周波数チャンネルの [f0, f0 + f) がマスクされます。f は、0 から周波数マスクパラメータ F までの一様分布から選択され、f0 は、(0, ν − f) から選択されます。この ν は、周波数チャンネル数です。
時間マスキング
時間マスキングでは、t 個の連続した時間ステップ [t0, t0 + t) がマスクされます。t は、0 から時間マスクパラメータ T までの一様分布から選択され、t0 は、[0, τ − t) から選択されます。この τ は時間ステップ数です。
TensorFlow.org で表示
Google Colab で実行
GitHubでソースを表示
ノートブックをダウンロード