På Storytel följer man noga den tekniska utvecklingen inom talsyntes. Att lyssnaren själv kan välja inläsare till en bok verkar inte längre omöjligt.
– Vi på teknikavdelningen följer utvecklingen inom talsyntes med mycket stort intresse. Att kunna ”välja inläsare” till en bok man vill lyssna på lät för bara några år sedan som en komplett omöjlighet om man inte nöjde sig med att välja mellan olika supermonotona robotröster. Med med de senaste årens enorma utveckling inom AI och Machine learning, är detta inte sci-fi längre utan verklighet, säger Mikael Holmquist som är ansvarig för appar och hemsida på Storytel.
Boktugg skrev nyligen om de tekniska genombrott för talsyntes som har skett under det senaste året med flera AI-bolag som tittar på tillämpningar främst inom olika digitala assistenter men även för att läsa upp texter, och ljudböcker.
Bokbranschen år 2030 – hur ser den ut? Framtidsspaningar i Analysbrevet!
– Under året har vi sett exempel på talsyntes-algoritmer som inte bara kan producera de mest människolika genererade rösterna vi någonsin hört utan kan också tränas att efterlikna specifika människors röster, så länge man har tillräckligt med träningsdata. Just träningsdata är ju något det inte råder någon brist på hos Storytel. Vi har ett enormt bibliotek med röstinspelningar av hög kvalitet, inspelade i ideala förhållanden, säger Mikael Holmquist.
Så frågan är förstås: Hur länge dröjer det innan Storytelkunder själva kan välja röst på uppläsaren när man ska lyssna på vilken ljudbok som helst?
– Vill inte avslöja några detaljer, men förutsättningarna finns för att detta ska kunna bli verklighet på Storytel inom en inte alltför avlägsen framtid, säger Mikael Holmquist.
En fråga som genast dyker upp är förstås vad som händer med skådespelarna – kommer de att konkurreras ut av datoralgoritmer och vara hänvisade till att lämna röstprover och licensiera ut sina röster?
– Jag tror inte röstskådespelarna behöver vara särskilt oroliga än på en stund. För en del kunder, som föredrar så lite dramatisering som möjligt och nära på monotona inläsningar skulle förmodligen tekniken som finns redan idag vara tillräcklig för att vilja använda. Några av våra mest populära inläsningar är dock sådana där inläsaren dramatiserar mer, ger karaktärer olika röster och så vidare. Något som skulle kräva några stora steg till innan det blir möjligt.
Även om just talsyntes, även känt som text-to-speech, fortfarande ligger något eller några år framåt i tiden så använder sig Storytel redan av den motsatta tekniken.
– Vi använder röstigenkänning (sound-to-text) för att möjliggöra en funktion vi har i vår app där användaren sömlöst kan växla mellan att lyssna på ljudboksversionen och läsa eboksversionen av samma bok, säger Mikael Holmquist.
Stödprenumeration. Boktugg Mini (från 10,42 kr/mån) ger tillgång till vissa premiumartiklar.