Apple erbjuder nu förlag och författare att producera ljudböcker med hjälp av AI-röster. Som alltid med Apple omgärdas projektet av många murar men det är en signal om att Apple Books vill konkurrera med Spotify, Audible, Storytel & Co.
Alla techjättar jobbar med AI-röster i någon form, både Google och Amazon har i åratal erbjudit olika tjänster för att använda talsyntes inte bara i deras egna tjänster utan även för andra.
Möt författarna som är mästare på Cliffhangers – i Boktugg Spänning!
Även Apple har jobbat med talsyntes, med sin Siri i mobilerna. Tekniskt har de legat ett steg efter sina konkurrenter men man har kompenserat det med marknadsföring och hype.
Därför är det ingen stor överraskning att de ger sig in på området för ljudböcker producerade med talsyntes. Google lanserade sin Auto Narrated Audiobooks-tjänst, som gjorde det enkelt för förlag och författare att producera ljudböcker på engelska, för två år sedan, då i beta-version, och har därefter rullat ut även spanska, franska och tyska.
Google har då talat om att auto-narration lämpar sig bäst för facklitteratur och att tekniken fortfarande inte är riktigt redo för skönlitteratur.
Apple satsar på skönlitteratur – men inte erotik
Det som faktiskt är överraskande med Apples satsning på ljudböcker via talsyntes är därför att de istället siktar in sig på skönlitteratur:
”Primary category must be romance or fiction (literary, historical, and women’s fiction are eligible; mysteries and thrillers, and science fiction and fantasy are not currently supported).”
Jo, förresten eftersom Apple är pryda så är inte erotiska böcker godkända ännu.
Dessutom kan förlag och författare bara nominera titlar för att produceras som ljudböcker av Apple. De väljer ut vilka böcker som ska bli ”Narrated by Apple Books.”
Och eftersom det ligger i Apples DNA att bygga murar så får ljudböcker som produceras med Apples tjänst bara säljas via … Apple Books. De är åtminstone så artiga att förlag och författare behåller ljudboksrättigheterna och ”det finns inga restriktioner för att producera och distribuera andra versioner av ljudboken”. Bara halvt exklusivt alltså.
Som jämförelse: den som använder Googles tjänst kan ladda ner ljudboksfilerna och sälja och distribuera dem till vilka återförsäljare de vill.
Apple har dock samarbete med både Draft2Digital och Ingram CoreSource för att locka deras kunder (förlag och författare) att anmäla sina eböcker till digital inläsning via Apple. Erbjudandet gäller i båda fallen böcker som idag distribueras via Apple Books.
Och man kan förstås undra hur ”auto-narrated” Apple Books egentligen är eftersom det ska ta 1-2 månader för att skapa boken och genomföra kvalitetskontroller. Om den färdiga boken möter Apples krav på kvalitet och innehåll kommer den att publiceras. Allt på Apples villkor med andra ord.
Apple attackerar konkurrenten
The Guardian var först (såvitt jag sett) att rapportera om Apples nya satsning. De rapporterar att alla förlag som varit inblandade i projektet fått skriva på sekretessavtal.
De pekar också på att Apple med satsningen attackerar Amazons erbjudande i en jämförelse. Det kan dock vara värt att notera att världens största återförsäljare av ljudböcker, Audible (som ägs av Amazon), i dagsläget inte tillåter böcker inlästa med talsyntes. Samtidigt som det bevisligen finns böcker i tjänsten som är producerade på det sättet.
Audible har fått kritik för att ta en alltför stor del av intäkterna, inte minst från indieförfattare.
Men det är ändå ironiskt när man tänker på hur Apple samtidigt motarbetar alla andra återförsäljare och prenumerationstjänster genom att kräva 30 procent av deras intäkter ifall de säljer i appen på en Iphone eller Ipad. Amazon och Audible har löst det genom att flytta alla transaktioner till sin sajt, vilket även Spotify tvingades göra när de lanserade ljudböcker med styckförsäljning. Till skillnad från Amazon har Spotify högljutt hängt ut Apples monopolistiska strategi och sökt hjälp av både EU och amerikanska myndigheter för att sätta stopp för det.
Många erbjuder talsyntes
Det finns dussintals olika tjänster som idag erbjuder ljudboksproduktion via talsyntes, av väldigt skiftande kvalitet. En del av dem är riktigt bra på engelska och spanska men mindre och svårare (?) språk som svenska låter fortfarande inte tillräckligt bra för att kunna ersätta en duktig mänsklig inläsare.
Men samtidigt finns det gott om böcker där en traditionell inläsning inte kommer att vara lönsam. En ljudbok producerad i en ljudboksstudio med professionell inläsare bakom mikrofonen kräver idag närmare 2000 lyssningar via prenumerationstjänsterna för att nå break even. Då det dessutom kan innebära en investering på mellan 50 000 och 100 000 kronor för en ljudbok av normallängd så finns det en tydlig lucka för ljudböcker inlästa med AI-röster. Bara de blir lite bättre, vilket förmodligen sker under 2023.
Och i nästa steg kommer ingen att kunna höra skillnad på talsyntes och mänskligt tal, framför allt ifall en duktig producent sitter bakom spakarna och justerar uttal och betoning och tempo. För det är idag inget fel på AI-rösterna, det som saknas är att lära dem hur vissa ord ska uttalas, inte minst sammansatta ord, namn och liknande. Samtidigt finns det fördelar som att en AI-röst aldrig läser fel i texten eller missar ett ord som en människa kan göra. Och hittar man ett betoningsfel på exempelvis ett ortsnamn i en ljudbok kan man justera det och regenerera hela ljudboken på nytt. Det skulle kosta skjortan med en människa som inläsare.
Apples process och långa produktionstid tyder på att de använder mycket handpåläggning i sin ljudboksproduktion. Sannolikt ser de detta som ett sätt att träna sin AI-motor för att fintrimma resultatet innan de i nästa steg öppnar upp verktyget. Men räkna inte med att ljudboksfilerna kan användas någon annanstans än i Apple Books (och bibliotek tillåts faktiskt) eftersom det i Apples DNA ligger att bygga murar mot andra plattformar och konkurrerande återförsäljare på varje sätt de kan.
2023 – året då AI-röster får ett genombrott?
Apples lansering är ytterligare ett exempel på att 2023 blir året då AI-röster på allvar tar en del av ljudboksmarknaden.
En fundering man kan ha är om Apples väg är den som kommer att gälla framöver. Att varje plattform producerar sin digitala ljudboksversion.
Antag exempelvis att Storytel (i samarbete med någon av de techjättar som utvecklar AI-röster) skulle erbjuda förlag att konvertera sina eböcker till ljudböcker, automatiskt. Men ljudboksfilerna stannar hos Storytel och förlaget måste fortfarande skapa nya ljudboksfiler för övriga plattformar – om inte dessa också erbjuder motsvarande möjlighet.
Ett sådant steg skulle utöka antalet ljudbokstitlar snabbt och kraftfullt för den eller de prenumerationstjänster som erbjuder tjänsten.
Ur förlagens och författarnas perspektiv skulle det på ett sätt vara bekvämt, men samtidigt skulle de inte äga ljudboksfilerna och inte heller kontrollen över produktionen av dem.
Bokbranschen år 2030 – hur ser den ut? Framtidsspaningar i Analysbrevet!