Common Voice : Spraakdataset, Externe link Wikipedia, de vrije encyclopedie

Common Voice

voorbeeld met Engels

Ontwikkelaar(s)

Mozilla Foundation

Uitgebracht

19 juni 2017 (6 jaar)

Recentste versie

1.87.0^[1]
(11 januari 2023)

Status

Actief

Licentie(s)

Creative Commons CC0

Website

Projecpagina NL

Portaal

Informatica
Vrije software

Common Voice is een crowdsourcingproject gestart door Mozilla om een gratis en publiek toegankelijke database voor spraakherkenningssoftware te maken. Het project wordt ondersteund door vrijwilligers die voorbeeldzinnen opnemen met een microfoon en opnames van andere gebruikers beluisteren en verifiëren. De uitgeschreven zinnen worden verzameld in een spraakdatabase die beschikbaar is onder de publieke domeinlicentie CC0. Deze licentie zorgt ervoor dat ontwikkelaars de database zonder beperkingen of kosten kunnen gebruiken voor spraak-naar-tekst-toepassingen. In het Nederlands taalgebied worden het Nederlands en Fries ondersteund.

Common Voice is daarmee een reactie op de taalassistenten van commerciële bedrijven zoals Amazon Echo, Siri of Google Assistant.

Spraakdataset

De Engelse Common Voice-database is de tweede grootste vrij toegankelijke spraakdatabase na LibriSpeech. Tegen de tijd dat de eerste gegevens op 29 november 2017 werden gepubliceerd, hadden meer dan 20.000 gebruikers wereldwijd 400.000 gevalideerde zinnen geregistreerd, met een totale lengte van 500 uur.^[2]

In februari 2019 werd de eerste reeks talen vrijgegeven voor gebruik. Dit omvatte 18 talen: Engels, Frans, Duits en Mandarijn Chinees, maar ook minder gangbare talen als Welsh en Kabyle. In totaal omvatte dit bijna 1400 uur opgenomen spraakgegevens van meer dan 42.000 bijdragers.^[3]

Nederlands

De Nederlandse spraakgegevensset van december 2020 bevat 60 uur aan gevalideerde spraak van 1012 verschillende stemmen. Het overgrote deel is van Nederlandse mannen, terwijl Vlamingen, Surinamers, ouderen en vrouwen op dit moment nog ondervertegenwoordigd zijn.^[4]

Fries

De Friese spraakgegevensset van december 2020 bevat 14 uur aan gevalideerde spraak van 467 verschillende stemmen. In samenwerking met Hogeschool van Amsterdam en de Rijksuniversiteit Groningen Campus Fryslân werd een taalwedstrijd georganiseerd om spraakfragmenten te verzamelen^[5]. Van die fragmenten komt een meerderheid van Friese vrouwen.^[6] De dataset Fries van 21-09-2022 geeft een percentageverdeling aan van 47% mannelijk en 11% vrouwelijk.

Externe link

(mul) Projecpagina meertalig

Bronnen, noten en/of referenties

↑ release-v1.87.0 Latest. Mozilla Common Voice (11 januari 2023). Gearchiveerd op 12 januari 2023. Geraadpleegd op 12 januari 2023.
↑ Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset, November 2017. Gearchiveerd op 21 mei 2021.
↑ Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages, venturebeat, February 28, 2019. Gearchiveerd op 2 juli 2022.
↑ Common Voice Dataset Nederlands. voice.mozilla.org. Gearchiveerd op 4 juli 2020. Geraadpleegd op 22 januari 2021.
↑ https://tweakers.net/nieuws/177180/fries-wint-het-van-nederlands-in-taalwedstrijd-mozilla-voor-stemherkenning.html. Gearchiveerd op 31 december 2022.
↑ Common Voice Dataset Fries. voice.mozilla.org. Gearchiveerd op 4 juli 2020. Geraadpleegd op 22 januari 2021.