Taledata fra Donér din stemme er nu frigivet
- FOKUS: Sprogdata til AI
- Nyheder
Taledata fra projektet “Donér din stemme” er nu frigivet som åbne data.
I projektet kan alle borgere frivilligt donere taledata via donerdinstemme.dk – der kommer derfor løbende nye data i datasættet.
Teksterne der oplæses i datasættet er på “kommunalsk” dansk, det vil sige med fokus på den kommunale forvaltning, så datasættet bidrager med udtale af ord og begreber fra den offentlige sektor.
Datasættet repræsenterer derfor både en bred skare af stemmer, accenter og dialekter, og kan derudover være ekstra værdifuldt i udviklingen af taleteknologi til den kommunale sektor.
Vi vil meget gerne have din feedback på data – især gerne hvad du gerne vil bruge det til.
Dataindsamlingen er startet 30. august 2024.
Hvorfor skal vi have flere åbne kommunale taledata til træning af AI?
Flere borgere i Danmark har allerede stiftet bekendtskab med taleteknologier som stemmestyret GPS, digitale assistenter som Siri, eller stemmestyrede enheder i hjemmet som Alexa eller Google Home.
Disse kunstige intelligenser kan forstå og reagere på kommandoer. Men kan de forstå den mangfoldighed af dansk sprog, vi taler til dem? Desværre ikke altid.
Alle borgere skal høres og forstås. Når flere danske stemmer gøres tilgængelige for alle, gavner det udviklingen af dansk tale-teknologi.
Hvorfor læse tekst om kommuner højt?
I kommuner, og det offentlige i det hele taget, har vi mange fagord som går igen. Det kan være ord som “borgerhøring,” “lokalplaner,” “daginstitutioner,” “pasudlevering” m.m.
For at vi kan udvikle teknologi til det offentlige er det vigtigt, vi har data om det “sprog”, vi taler netop her. Derfor handler alle teksterne om den fiktive kommune Vildby, og situationer fra borgere og medarbejdere i den kommune.