Path: blob/master/site/es-419/hub/tutorials/yamnet.ipynb
25118 views
Copyright 2020 The TensorFlow Hub Authors.
Licensed under the Apache License, Version 2.0 (the "License");
Clasificación de sonido con YAMNet
YAMNet es una red profunda que predice 521 clases de eventos de audio a partir del corpus AudioSet-YouTube en el que se entrenó. Emplea la arquitectura de convolución separable en profundidad Mobilenet_v1.
Cargue el modelo desde TensorFlow Hub.
Nota: Para leer la documentación simplemente siga la URL del modelo.
El archivo de etiquetas se cargará desde los activos del modelo y está presente en model.class_map_path()
. Lo cargaremos en la variable class_names
.
Agregue un método para verificar y convertir un audio cargado que tenga la sample_rate adecuada (16 K); de lo contrario, podría afectar los resultados del modelo.
Descargar y preparar el archivo de sonido
Aquí descargará un archivo wav y lo escuchará. Si ya tiene un archivo disponible, simplemente cárguelo en Colab y úselo ese.
Nota: Se requiere que el archivo de audio sea un archivo wav mono con una frecuencia de muestreo de 16 kHz.
wav_data
debe normalizarse a valores entre [-1.0, 1.0]
(como se indica en la documentación del modelo).
Ejecutar el modelo
Ahora la parte fácil: con los datos ya preparados, simplemente llama al modelo y obtenga: puntuaciones, incorporaciones y el espectrograma.
La puntuación es el resultado principal que usaremos. El espectrograma se usará para hacer algunas visualizaciones más adelante.
Visualización
YAMNet también devuelve información adicional que podemos usar para la visualización. Veamos la forma de onda, el espectrograma y las clases principales inferidas.