Path: blob/master/site/zh-cn/hub/tutorials/bird_vocalization_classifier.ipynb
25118 views
Kernel: Python 3
Copyright 2023 The TensorFlow Hub Authors.
Licensed under the Apache License, Version 2.0 (the "License");
In [ ]:
使用 Google Bird Vocalization 模型
Google Bird Vocalization 是一个全球鸟类嵌入和分类模型。
此模型需要以 32kHz 采样的 5 秒音频片段作为输入
此模型为音频的每个输入窗口输出逻辑和嵌入向量。
在此笔记本上,您会学习如何将音频正确提供给模型以及如何使用 logit 进行推断。
In [ ]:
In [ ]:
从 TFHub 加载模型
In [ ]:
我们来加载训练模型使用的标签。
标签文件位于 assets 文件夹中的 label.csv 下。每行都是一个 ebird id。
In [ ]:
frame_audio
函数基于 Chirp 库版本,但使用 tf.signal 而不是 librosa。
ensure_sample_rate
是一个用于确保模型使用的任何音频都具有 32kHz 预期采样率的函数
In [ ]:
In [ ]:
In [ ]:
此音频有 24 秒,而模型需要 5 秒的块。
frame_audio
函数可以解决此问题并将音频拆分为适当的帧
In [ ]:
我们只在第一帧应用模型:
In [ ]:
label.csv 文件包含 ebird id。乌鸫的 ebird id 为 eurbla
In [ ]:
现在我们在所有帧上应用模型:
注:此代码也基于 Chirp 库
In [ ]:
In [ ]: