Датасет Silero-VAD
Датасет создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».
По ссылкам ниже представлены .feather
файлы, содержащие размеченные с помощью Silero VAD открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. .feather
файлы можно открыть с помощью библиотеки pandas
:
Каждый .feather
файл с разметкой содержит следующие колонки:
speech_timings
- разметка данного аудио. Это список, содержащий словари вида{'start': START_SECOND, 'end': END_SECOND}
, гдеSTART_SECOND
иEND_SECOND
- время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;language
- ISO код языка данного аудио.
Колонки, содержащие информацию о загрузке аудио файла различаются и описаны для каждого набора данных ниже.
Все данные размечены при временной дискретизации в ~30 миллисекунд (num_samples
- 512)
Название | Число часов | Число языков | Ссылка | Лицензия | md5sum |
---|---|---|---|---|---|
Bible.is | 53,138 | 1,596 | URL | Уникальная | ea404eeaf2cd283b8223f63002be11f9 |
globalrecordings.net | 9,743 | 6,171[^1] | URL | CC BY-NC-SA 4.0 | 3c5c0f31b0abd9fe94ddbe8b1e2eb326 |
VoxLingua107 | 6,628 | 107 | URL | CC BY 4.0 | 5dfef33b4d091b6d399cfaf3d05f2140 |
Common Voice | 30,329 | 120 | URL | CC0 | 5e30a85126adf74a5fd1496e6ac8695d |
MLS | 50,709 | 8 | URL | CC BY 4.0 | a339d0e94bdf41bba3c003756254ac4e |
Итого | 150,547 | 6,171+ |
Bible.is
Ссылка на .feather
файл с разметкой
Колонка
audio_link
содержит ссылки на конкретные аудио файлы.
globalrecordings.net
Ссылка на .feather
файл с разметкой
Колонка
folder_link
содержит ссылки на скачивание.zip
архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио.Колонка
audio_path
содержит пути до конкретного аудио после распаковки соответствующего архива из колонкиfolder_link
Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.
VoxLingua107
Ссылка на .feather
файл с разметкой
Колонка
folder_link
содержит ссылки на скачивание.zip
архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио.Колонка
audio_path
содержит пути до конкретного аудио после распаковки соответствующего архива из колонкиfolder_link
Common Voice
Ссылка на .feather
файл с разметкой
Этот датасет невозможно скачать по статичным ссылкам. Для загрузки необходимо перейти по ссылке и, получив доступ в соответствующей форме, скачать архивы для каждого доступного языка. Внимание! Представленная разметка актуальна для версии исходного датасета Common Voice Corpus 16.1
.
Колонка
audio_path
содержит уникальные названия.mp3
файлов, полученных после скачивания соответствующего датасета.
MLS
Ссылка на .feather
файл с разметкой
Колонка
folder_link
содержит ссылки на скачивание.zip
архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио.Колонка
audio_path
содержит пути до конкретного аудио после распаковки соответствующего архива из колонкиfolder_link
Лицензия
Данный датасет распространяется под лицензией CC BY-NC-SA 4.0
.
Цитирование
[^1]: Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.