Path: blob/master/site/zh-cn/io/tutorials/audio.ipynb
25118 views
Copyright 2020 The TensorFlow IO Authors.
音频数据准备和增强
概述
自动语音识别面临的最大挑战之一是音频数据的准备和增强。音频数据分析可能涉及时域或频域,与图像等其他数据源相比,这提高了复杂性。
作为 TensorFlow 生态系统的一部分,tensorflow-io
软件包提供了不少与音频相关的 API。这些 API 非常有用,可简化音频数据的准备和增强。
设置
安装要求的软件包,然后重新启动运行时
用法
读取音频文件
在 TensorFlow IO 中,利用类 tfio.audio.AudioIOTensor
可以将音频文件读取到延迟加载的 IOTensor
中:
在上面的示例中,Flac 文件 brooklyn.flac
来自 Google Cloud 中可公开访问的音频片段。
示例中直接使用 GCS 地址 gs://cloud-samples-tests/speech/brooklyn.flac
,因为 TensorFlow 支持 GCS 文件系统。除了 Flac
格式,凭借自动文件格式检测,AudioIOTensor
还支持 WAV
、Ogg
、MP3
和 MP4A
格式。
AudioIOTensor
是一个延迟加载张量,因此,刚开始只显示形状、数据类型和采样率。AudioIOTensor
的形状用 [samples, channels]
表示,这表示您加载的音频片段是单声道音频(int16
类型的 28979
个样本)。
仅需要时才会读取该音频片段的内容。要读取音频片段的内容,可通过 to_tensor()
将 AudioIOTensor
转换为 Tensor
,也可以通过切片读取。如果只需要一个大音频片段的一小部分,切片尤其实用:
音频可通过以下方式播放:
更方便的方式是,将张量转换为浮点数并在计算图中显示音频片段:
降噪
为音频降噪有时很有意义,这可以通过 API tfio.audio.trim
实现。从该 API 返回的是片段的一对 [start, stop]
位置:
淡入和淡出
一种有用的音频工程技术是淡入淡出,也就是逐渐增强或减弱音频信号。这可以通过 tfio.audio.fade
实现。tfio.audio.fade
支持不同的淡入淡出形状,如 linear
、logarithmic
或 exponential
:
声谱图
高级音频处理通常需要不断调整音频频率。在 tensorflow-io
中,可以通过 tfio.audio.spectrogram
将波形图转换为声谱图。
也可以转换为其他不同的比例:
SpecAugment
除上述数据准备和增强 API 外,tensorflow-io
软件包还提供了高级声谱图增强,最主要的是在 SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition (Park et al., 2019) 中讨论的频率掩蔽和时间掩蔽。
频率掩蔽
在频率掩蔽中,对频率通道 [f0, f0 + f)
进行掩蔽,其中 f
选自从 0
到频率掩蔽参数 F
的均匀分布,而 f0
则选自 (0, ν − f)
,其中 ν
是频率通道的数量。
时间掩蔽
在时间掩蔽中,对 t
个连续时间步骤 [t0, t0 + t)
进行掩蔽,其中 t
选自从 0
到时间掩蔽参数 T
的均匀分布,而 t0
则选自 [0, τ − t)
,其中 τ
是时间步数。