Inom några år kommer Storytel, BookBeat och Nextory sannolikt att erbjuda ljudböcker med valfri röst. Kanske blir konkurrensmedlen ”nu med över 50 röster” eller kanske att vissa röster blir exklusiva. Stefan Sauk endast hos …?
Jag har funderat på när det var dags att skriva den här krönikan. Gör dig redo för ett tankeexperiment som rent tekniskt är möjligt redan imorgon. Däremot lär det dröja eftersom det finns en del praktiska hinder.
Bokbranschen år 2030 – hur ser den ut? Framtidsspaningar i Analysbrevet!
Du har säkert hört talsyntes. Det finns flera gratistjänster på nätet där du matar in en text och låter en dator läsa upp texten. Det finns flera appar för mobiltelefoner där du kan scanna en text och få den uppläst.
Faktum är att Amazon Kindle 2 redan 2009 erbjöd text-to-speech, vilket dock stoppades efter att Authors Guild hade protesterat och hotade att stämma Amazon om de inte plockade bort funktionen. De ville helt enkelt att författarna skulle kunna sälja rättigheter till textbok och audiobok separat. Amazon backade och släppte frågan, lät förlagen själva avgöra om respektive titel skulle gå att få uppläst direkt i plattan.
En anledning till det var förstås att tekniken inte var mogen. Det lät inte bra och ljudböcker med talsyntes skulle inte ersätta ljudböcker inlästa av skådespelare på länge. Men det var 2009.
Jag har tagit upp frågan med flera personer det senaste året. De som befinner sig i bokbranschen är alla skeptiska. Nästan alla. ”En dator kan aaaaldrig ersätta en skådespelare”, är en vanlig uppfattning. Även om streamingtjänsterna håller ett öga på teknikutvecklingen, exempelvis BookBeat.
Men så finns det vissa som har lyft blicken. Jag nämnde det i en artikel om ljudboksvågen för ett tag sedan. I förra veckan kom det dock svart på vitt. Då skrev nämligen Techcrunch om Googles uppdatering av WaveNet, en ny teknik för att generera tal som presenterades förra året. Bakom WaveNet står företaget Deepmind som jobbar med artificiell intelligens (AI), det grundades i London 2010 men köptes av Google 2014.
Den använder maskininlärning för att bygga upp en röst. Tanken bakom tekniken var att återskapa ord och meningar på ett nytt sätt. Istället för att koda grammatiska och tonlägesregler manuellt så används maskininlärning för att hitta mönster i talet och generera dessa ”sample by sample”.
När den första versionen av WaveNet släpptes så krävdes mycket datorkraft. Det tog nästan två minuter att generera ett ljudklipp på två sekunder. För det som Google ville använda tekniken till var det alldeles för långsamt, den nya versionen genererar ljud 20 gånger snabbare än realtid, det vill säga samma tvåsekundersklipp skapas på en tiondels sekund. Dessutom med högre samplingsfrekvens, 24 000 per sekund.
”Inte för att hifi-ljud riktigt kan uppskattas i en smartphone-högtalare, men med dagens presentation kan vi räkna med att (Google) Assistant dyker upp på många andra ställen snart”, skriver Techcrunch.
Tänker ni detsamma som jag tänker nu? Ljudböcker.
Men det här är ju engelska, tänker ni. När man matar in svensk text så kommer det förstås att låta som om en amerikan läser på svenska, med kraftig brytning och helt fel uttal på svenska ord och namn.
Nix. WaveNet har nämligen en kvalitet till: den är extremt enkel att skala till andra språk och accenter. Till och med dialekter. Det räcker att ge maskinen ett par dussin timmar med en person som pratar walesiska och den kommer att plocka upp nyanserna själv. Men, det kan vara värt att påpeka att än så länge är den nya rösten endast tillgänglig på engelska och japanska och Google har ingen tidsplan för andra språk.
Nu är inte Google ensamma om att utforska talsyntes. Även Apple jobbar med liknande teknik. Ja, och för den delen Amazon som i november 2016 lanserade Polly, en molntjänst som konverterar text till tal. Redan då stödde den 47 manliga och kvinnliga röster fördelade på 24 språk, däribland svenska. Polly är dock långt ifrån lika avancerad i nuvarande version som WaveNet.
Det finns även startupen Lyrebird som erbjuder sig att baserat på en minuts röstprov skapa en digital kopia av din röst och deras teknik påminner om WaveNet. De genomför just nu en privat beta där en av tillämpningarna som de vill prova är just audioböcker. Även Lyrebird finns än så länge bara på ett språk – engelska.
Okej, så vad innebär då det här rent praktiskt? Ja, dels kommer tekniken att kunna användas för att snabbt producera ljudböcker med en och samma röst. En ljudboksstudio utrustad med WaveNet-teknik som matats med en svensk röst skulle kunna läsa in en hel 20 timmar lång ljudbok på … en timme. Effektivisering?
Nästa steg blir att stoppa in tekniken i appen. När du väljer en bok på Storytel så går alla att få upplästa, finns ingen färdig ljudbok så läser appen ur eboksfilen med talsyntes i realtid. Eller tankas ner för offlineläge ur ett cachat bibliotek på servern.
Därefter vill lyssnaren förstås kunna välja röst, så nästa version av appen har inte bara en röst för talsyntes utan en manlig och en kvinnlig. Eller tio, eller femtio olika röster. Ska man ha riktigt hög kvalitet på dem kan man förstås basera rösterna på populära inläsare som kan licensiera sina röster och tjäna pengar på dem när de sover.
Här ser jag förstås plötsligt nästa nivå på konkurrensen mellan Storytel och BookBeat. Tänk att båda erbjuder ett femtiotal röster att välja mellan. Men att en av dem bestämmer sig för att ge Stefan Sauk eller Katarina Ewerlöf en liten extra slant för att hens röst ska vara exklusiv för en av ljudbokstjänsterna.
Kan man tänka sig att den som har en favoritinläsare skulle vilja höra denne läsa upp alla böcker?
Eller varför inte skräddarsy tjänsten. Låt någon sampla din egen röst så kan du höra dig själv läsa högt för dig själv – eller kanske för barnen.
Sådär, nu fick du lite att fundera över när du trodde att den tekniska utvecklingen kring streamingtjänsterna hade kommit långt. Den har bara börjat.
Och så var det en sak till.
Det finns ett talesätt som heter ”What would Google do?” (och som ibland tillämpas på Amazon eller Apple). Läs texten ovan och lägg ihop Google WaveNet och Google Play Böcker. Bara ett tankeexperiment.
LÄS ÄVEN: BookBeat ser att talsyntes för ljudböcker skapar nya rättighetsfrågor
Bokbranschen år 2030 – hur ser den ut? Framtidsspaningar i Analysbrevet!