Common Voice

Common Voice
Логотип программы Common Voice
Скриншот программы Common Voice
Предварительный просмотр главной страницы сайта Common Voice в апреле 2021 года
Тип voice dataset[вд] и краудсорсинг
Разработчик Mozilla Foundation
Языки интерфейса Многоязычный (список языков)
Первый выпуск 2017 июня 19; 6 лет назад (19-06-2017)
Репозиторий github.com/mozilla/voice…
Лицензия Creative Commons CC0
Сайт commonvoice.mozilla.org
Логотип Викисклада Медиафайлы на Викискладе

Common Voice — краудсорсинговый проект, запущенный Mozilla для создания бесплатной базы данных для программного обеспечения распознавания речи. Проект поддерживается волонтерами, которые записывают образцы предложений с помощью микрофона и прослушивают записи других пользователей. Транскрибированные предложения будут собраны в базу данных голосов, доступную под лицензией CC0, являющейся общественным достоянием. Эта лицензия гарантирует, что разработчики могут использовать эту базу данных для голосовых приложений без ограничений и затрат.

Марс — талисман проекта.

Common Voice появился как ответ голосовым помощникам крупных компаний, таких как Amazon Alexa, Siri или Google Assistant.

Голосовая база данных

База данных English Common Voice является второй по величине свободно доступной голосовой базой данных после LibriSpeech. К моменту публикации первых данных 29 ноября 2017 года, более 20 000 пользователей по всему миру записали 400 000 подтвержденных предложений, общей продолжительностью 500 часов.[1]

В феврале 2019 года была выпущена первая партия языков. В неё вошли 18 языков: английский, французский, немецкий и мандаринский китайский, но также и менее распространенные языки, такие как валлийский и кабильский. В общей сложности она включала почти 1400 часов записанных голосовых данных от более чем 42 000 авторов.[2]

Примечания

  1. Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset  (неопр.). blog mozilla.org (29 ноября 2017). Дата обращения: 14 февраля 2020. Архивировано 29 ноября 2017 года.
  2. Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages  (неопр.). VentureBeat (28 февраля 2019). Дата обращения: 14 февраля 2020. Архивировано 4 марта 2019 года.
Перейти к шаблону «Проекты Mozilla»
Проекты Mozilla
Браузеры
Другие проекты
Не развиваются
Инфраструктура
Компоненты