[Pressmeddelande från KB]
Mer än 50 000 timmar av tv, riksdagstal och dialekter. Så ser träningsdatat för Kungliga bibliotekets (KB) nya AI-modell ut. KB-Whisper har lärt sig en bred variation av svenska och kan snabbt transkribera tal till text – vilket kan bidra till såväl undertexter på tv som en bättre sökbarhet i bibliotekets samlingar.
KB-Whisper är en tal-till-textmodell, det vill säga en AI-modell som har tränats på stora mängder data för att lära sig omvandla talat språk till text. Modellen utgår ifrån det amerikanska företaget Open AI:s modell Whisper. Andra liknande varianter har också funnits tillgängliga de senaste åren.
Men KB:s modell är den första med gedigen träning på svenska och är överlägsen sin amerikanska motsvarighet på språket. Enligt tester gör den 47 procent färre fel på ordnivå.
– Det här är en milstolpe för taligenkänning på svenska. Modellen har tränats på en mycket stor mängd svensk data och har därför en väldigt god kännedom om språket. KB-Whisper är särskilt bra på att stava rätt på svåra svenska orts- och personnamn och komplicerade termer, säger Leonora Vesterbacka, senior data scientist på KB.
Undertext, kundtjänst och journaler
Träningsdatat består av undertextade tv-sändningar från KB:s samlingar, som Sveriges Television hjälpt till att välja ut för att ge en stor variation av talad svenska. KB-Whisper är också tränad på ljud och transkriptioner från ledamöternas tal under debatter i Sveriges riksdag – samt inspelningar av olika dialekter från Institutet för språk och folkminnen (ISOF).
Den nya AI-modellen kan tillämpas på många olika områden. Sveriges Television utforskar exempelvis möjligheterna att använda KB-Whisper för att texta sina sändningar.
Tal-till-textmodeller ligger även till grund för bland annat telefonbaserad kundtjänst. Med särskild träning på medicinska termer kan tekniken också hjälpa till att transkribera läkares diktafoninspelningar till journalanteckningar. KB-Whispers goda förståelse för svenska kan bidra till att höja kvaliteten på dessa tjänster.
Demokratisk AI för forskningen
Under de senaste fem åren har KB utvecklat flera välanvända AI-modeller. Det är möjligt tack vare bibliotekets uppdrag att samla in och bevara allt som ges ut i Sverige – från böcker och tidningar, till film, tv och radio.
– KB har en unik position i att utveckla demokratiskt förankrad AI som speglar alla former och variationer av svenska språket. Med hjälp av KB-Whisper planerar vi också att transkribera delar av våra radiosamlingar. På så sätt kan vi göra arkiven sökbara för forskningen och därmed låsa upp material som tidigare varit svårt att hitta, säger Leonora Vesterbacka.
Fakta: KB-Whisper och andra AI-modeller
KB-Whisper är helt gratis att ladda ner och använda från KB:s sida på plattformen Huggingface. Den har inget användargränssnitt så det kan behövas lite förkunskap för att använda modellen. I anslutning till modellen finns instruktioner. Från Huggingface går det också att ladda ner KB:s andra AI-modeller, till exempel KB-BERT, en modell för textanalys.