Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
snakers4
GitHub Repository: snakers4/silero-vad
Path: blob/master/datasets/README.md
1171 views

Датасет Silero-VAD

Датасет создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».

По ссылкам ниже представлены .feather файлы, содержащие размеченные с помощью Silero VAD открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. .feather файлы можно открыть с помощью библиотеки pandas:

import pandas as pd dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)

Каждый .feather файл с разметкой содержит следующие колонки:

  • speech_timings - разметка данного аудио. Это список, содержащий словари вида {'start': START_SECOND, 'end': END_SECOND}, где START_SECOND и END_SECOND - время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;

  • language - ISO код языка данного аудио.

Колонки, содержащие информацию о загрузке аудио файла различаются и описаны для каждого набора данных ниже.

Все данные размечены при временной дискретизации в ~30 миллисекунд (num_samples - 512)

НазваниеЧисло часовЧисло языковСсылкаЛицензияmd5sum
Bible.is53,1381,596URLУникальнаяea404eeaf2cd283b8223f63002be11f9
globalrecordings.net9,7436,171[^1]URLCC BY-NC-SA 4.03c5c0f31b0abd9fe94ddbe8b1e2eb326
VoxLingua1076,628107URLCC BY 4.05dfef33b4d091b6d399cfaf3d05f2140
Common Voice30,329120URLCC05e30a85126adf74a5fd1496e6ac8695d
MLS50,7098URLCC BY 4.0a339d0e94bdf41bba3c003756254ac4e
Итого150,5476,171+

Bible.is

Ссылка на .feather файл с разметкой

  • Колонка audio_link содержит ссылки на конкретные аудио файлы.

globalrecordings.net

Ссылка на .feather файл с разметкой

  • Колонка folder_link содержит ссылки на скачивание .zip архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио.

  • Колонка audio_path содержит пути до конкретного аудио после распаковки соответствующего архива из колонки folder_link

Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.

VoxLingua107

Ссылка на .feather файл с разметкой

  • Колонка folder_link содержит ссылки на скачивание .zip архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио.

  • Колонка audio_path содержит пути до конкретного аудио после распаковки соответствующего архива из колонки folder_link

Common Voice

Ссылка на .feather файл с разметкой

Этот датасет невозможно скачать по статичным ссылкам. Для загрузки необходимо перейти по ссылке и, получив доступ в соответствующей форме, скачать архивы для каждого доступного языка. Внимание! Представленная разметка актуальна для версии исходного датасета Common Voice Corpus 16.1.

  • Колонка audio_path содержит уникальные названия .mp3 файлов, полученных после скачивания соответствующего датасета.

MLS

Ссылка на .feather файл с разметкой

  • Колонка folder_link содержит ссылки на скачивание .zip архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио.

  • Колонка audio_path содержит пути до конкретного аудио после распаковки соответствующего архива из колонки folder_link

Лицензия

Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Цитирование

@misc{Silero VAD Dataset, author = {Silero Team}, title = {Silero-VAD Dataset: a large public Internet-scale dataset for voice activity detection for 6000+ languages}, year = {2024}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/snakers4/silero-vad/datasets/README.md}}, email = {hello@silero.ai} }

[^1]: Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.