Vältränad AI-modell förvandlar svenskt tal till text

[Pressmeddelande från KB]

Mer än 50 000 timmar av tv, riksdagstal och dialekter. Så ser träningsdatat för Kungliga bibliotekets (KB) nya AI-modell ut. KB-Whisper har lärt sig en bred variation av svenska och kan snabbt transkribera tal till text – vilket kan bidra till såväl undertexter på tv som en bättre sökbarhet i bibliotekets samlingar.

KB-Whisper är en tal-till-textmodell, det vill säga en AI-modell som har tränats på stora mängder data för att lära sig omvandla talat språk till text. Modellen utgår ifrån det amerikanska företaget Open AI:s modell Whisper. Andra liknande varianter har också funnits tillgängliga de senaste åren.

Men KB:s modell är den första med gedigen träning på svenska och är överlägsen sin amerikanska motsvarighet på språket. Enligt tester gör den 47 procent färre fel på ordnivå.

– Det här är en milstolpe för taligenkänning på svenska. Modellen har tränats på en mycket stor mängd svensk data och har därför en väldigt god kännedom om språket. KB-Whisper är särskilt bra på att stava rätt på svåra svenska orts- och personnamn och komplicerade termer, säger Leonora Vesterbacka, senior data scientist på KB.

Undertext, kundtjänst och journaler

Träningsdatat består av undertextade tv-sändningar från KB:s samlingar, som Sveriges Television hjälpt till att välja ut för att ge en stor variation av talad svenska. KB-Whisper är också tränad på ljud och transkriptioner från ledamöternas tal under debatter i Sveriges riksdag – samt inspelningar av olika dialekter från Institutet för språk och folkminnen (ISOF).

Den nya AI-modellen kan tillämpas på många olika områden. Sveriges Television utforskar exempelvis möjligheterna att använda KB-Whisper för att texta sina sändningar.

Tal-till-textmodeller ligger även till grund för bland annat telefonbaserad kundtjänst. Med särskild träning på medicinska termer kan tekniken också hjälpa till att transkribera läkares diktafoninspelningar till journalanteckningar. KB-Whispers goda förståelse för svenska kan bidra till att höja kvaliteten på dessa tjänster.

Demokratisk AI för forskningen

Under de senaste fem åren har KB utvecklat flera välanvända AI-modeller. Det är möjligt tack vare bibliotekets uppdrag att samla in och bevara allt som ges ut i Sverige – från böcker och tidningar, till film, tv och radio.

– KB har en unik position i att utveckla demokratiskt förankrad AI som speglar alla former och variationer av svenska språket. Med hjälp av KB-Whisper planerar vi också att transkribera delar av våra radiosamlingar. På så sätt kan vi göra arkiven sökbara för forskningen och därmed låsa upp material som tidigare varit svårt att hitta, säger Leonora Vesterbacka.

Fakta: KB-Whisper och andra AI-modeller
KB-Whisper är helt gratis att ladda ner och använda från KB:s sida på plattformen Huggingface. Den har inget användargränssnitt så det kan behövas lite förkunskap för att använda modellen. I anslutning till modellen finns instruktioner. Från Huggingface går det också att ladda ner KB:s andra AI-modeller, till exempel KB-BERT, en modell för textanalys.

Pressrelease

Pressrelease

Vi publicerar utvalda pressreleaser för att kunna länka till dem i våra nyhetsbrev och notiser. Förlag och andra i bokbranschen är välkomna att skicka sina pressreleaser till tips@boktugg.se Kanske publicerar vi releasen, kanske gör vi en egen nyhet på den. Vi läser i alla fall alla inkomna nyhetstips även om vi inte kan svara på alla mejl.

tips@boktugg.se

Gör som ...

… och alla våra andra sponsorer som stöttar oss ekonomiskt. Vill ditt företag bli sponsor? Kontakta sales@boktugg.se för mer information. Privatpersoner och mindre företag som vill bidra swishar valfritt belopp till 123-483 18 71 (klicka här för QR-kod) eller med andra betalmedel.