Snart får skådespelarna konkurrens om inläsning av ljudböcker. Talsyntes blir bättre för varje dag. Alexander Forselius har testat. Dessutom frågar vi streamingtjänsterna hur de ser på böcker med ”robotinläsare”.
För några månader sedan skrev vi om att Google kan göra eböcker till ljudböcker med talsyntes och hur ett förlag med lite kodning lyckades förbättra röstkvaliteten på sin ebok via Google. Senare testade Alexander Forselius hur väl telefonernas egna talsyntesfunktion fungerar ihop med ljudbokstjänster såsom BookBeat, Nextory och Storytel där det visade sig att det bara fungerade på Nextory eftersom bara den tjänsten använde standardkomponent medan de andra använde egna proprietära lösningar.
Egenutgivaren Alexander har därefter fortsatt experimentera med talsyntes. Under våren har han testat att producera två kortare ljudböcker med hjälp av den amerikanska talsyntestjänsten Natural Readers kommersiella variant. Han testade först ett utdrag ur sin nya bok om meditation Sluta flyg för i helvete (som utkommer i dagarna) med tjänstens svenska röst. Boktugg fick lyssna på den och vårt intryck är att den svenska rösten lät lite lätt bakfull, snubblade på ord och betoningar.
Stödprenumeration. Boktugg Mini (från 10,42 kr/mån) ger tillgång till vissa premiumartiklar.
Men det är helt klart en spännande utveckling. De stora jättarna Amazon och Google jobbar med teknik för talsyntes där ljudböcker bara är ett tänkbart användningsområde. Samtidigt som tekniken och röstkvaliteten blir allt bättre pressas priserna neråt. Vår gissning är att det i framtiden startas ljudboksföretag som inriktar sig enbart på inspelningar genom talsyntes. Kanske testar svenska ljudboksstudios redan idag tekniken för att vara redo när den är tillräckligt bra för att kunna ersätta skådespelare som inläsare – i alla fall på vissa produktioner.
Frågan är när kvaliteten är så bra att lyssnarna inte protesterar. Ljudböckerna producerade med artificiella röster måste hålla samma höga klass som om de spelats in på konventionellt sätt. Den talsyntes som Alexander testat var lite jobbig att lyssna på i längden då rösten var lite för robotaktig.
– En risk med utvecklingen skulle vara att ljudbokstjänsterna drabbas av ”robotböcker”, alltså ljudböcker skapade av robotar med mix av fritt material, som översvämmar tjänsterna. Inom musikvärlden har problematiken med falska låtar på streamingtjänster uppmärksammats och det är inte omöjligt att detta fenomen sprider sig till ljudboksvärlden när trösklarna för ljudboksproduktion blir lägre, säger Alexander Forselius som även pysslat en del med musik.
Som jämförelse testade Alexander att läsa in en annan story på engelska med tre engelska röster som baserar sig på ett kapitel ur hans bok Jag Upphäver Gravitationen som han släppte förra året. De två inläsningarna publicerade han på sin podd Aspiepodden som finns på Spotify och iTunes, där även första delen av hans bok finns.
– De engelska rösterna kändes mer naturliga än den svenska. Jag tror att det har att göra med att algoritmerna i grunden är konstruerade för engelska. Men Google har ju lovat att de nya programmen ska bli mer självlärande och klara av även andra språk än engelska bättre. Talsyntesljudböcker på engelska känns som det kan komma tidigare, säger Alexander.
Här kan du lyssna på de två inspelningarna och se vad du tycker: Spotify och Aspiepodden.
Hur ser då streamingtjänsterna på ljudböcker som producerats med talsyntes? Vi kontaktade Storytel, BookBeat och Nextory för att få kommentarer på fenomenet.
Känner ni till någon ljudbok som har producerats med talsyntes som ligger i era system idag?
– Vi känner inte till någon ljudbok producerad med talsyntes som finns hos Nextory idag, säger Shadi Bitar, vd för Nextory.
– Vad jag vet är ingen bok producerad via talsyntes. Däremot består katalogen av tiotusentals ljudböcker på flera olika språk från väldigt många utgivare så helt otroligt skulle det inte vara, säger Niclas Sandin, vd för BookBeat.
Hur ser ni på böcker inlästa med talsyntes?
– Ser inget problem med det om upplevelsen för slutanvändaren blir minst lika bra eller bättre som en konsekvens av det. Sedan måste det fungera rättighetmässigt också så att inte tjänsterna själv kan skapa en ljudboksupplevelse fast någon annan egentligen äger rättigheten för det formatet. Men om en egenutgivare eller förlag väljer att producera sina böcker på det sättet har jag svårt att se ett problem så länge kvaliteten är nog hög för användarna, säger Niclas Sandin.
– Vi följer utvecklingen inom talsyntes och andra tekniker som skulle kunna förbättra användarupplevelsen och öka tillgängligheten för våra kunder, menar hans kollega Shadi Bitar.
Om man nu tänker sig att detta blir vanligare, bör man då tydligt ange detta i informationen om boken, i stil med ”Denna ljudbok är producerad med hjälp av syntetiskt tal”?
– Svårt att säga i dagsläget. Det är något man får ta ställning till när det blir aktuellt, säger Shadi Bitar.
– Många användare väljer bok efter uppläsare så något vis att kategorisera böckerna krävs. Då tycker jag det snarare är viktigt att hitta sätt att beskriva rösten än att säga att det är syntetiskt när den etiketten förmodligen är helt irrelevant för någon som letar efter en bok att lyssna på, säger Niclas Sandin.
Storytel är den enda av streamingtjänsterna som även har egen ljudboksstudio och därmed är en tänkbar kandidat för att faktiskt själva producera ljudböcker med hjälp av talsyntes i framtiden.
– Jag tänker på talsyntesinlästa ljudböcker ungefär som jag tänker på självkörande bilar. Även om tekniken går framåt med stormsteg så ligger talsyntesinläsningar av prosa lika långt in i framtiden som förarlösa bilar. Däremot kan talsyntestekniken sannolikt slå igenom tidigare för inläsningar av icke-prosa, samt användas som tidsbesparare vid ljudboksproduktion, säger Jonas Tellander, vd för Storytel.
En rätt bra summering av läget. Vi vet alla att det görs tester med förarlösa bilar men ingen kan med säkerhet säga om det dröjer tre år, tio år eller sex månader innan man får ett genombrott som gör att nästa gång du byter bil så blir det en självkörande modell. På samma sätt vet vi inte om de första ljudböckerna på svenska kommer att produceras med talsyntes i år eller om fem år. Skillnaden är att du kanske inte kommer att märka att boken inte är inläst av en människa.
Bokbranschen år 2030 – hur ser den ut? Framtidsspaningar i Analysbrevet!