Hvornår bliver syntetisk oplæsning god nok?

Flere og flere lyt­ter til artik­ler. Men ind­tal­ing tager tid, og det koster. Selvom der er enighed om, at kun­stig oplæs­ning ikke er god nok lige nu, vis­er studi­er, at mask­in­stem­mer allerede nu er bedre end visse men­neskestem­mer i nogle sit­u­a­tion­er.

Af Lars K Jensen / lars@willmore.dk
(Følg Lars på Twit­ter / LinkedIn)

Artiklen er opdateret:

  • Mandag den 7. decem­ber kl. 13:40 med Google WaveNet.
  • Søndag den 6. decem­ber kl. 19:45 med Lyre­bird — der nu er en del af Descript.

Artiklen fort­sæt­ter herun­der ↓

Bliv bedre til dit arbe­jde.
Følg og forstå de dig­i­tale medi­etendenser med Dig­i­tal Ugerevy:

Du kan altid afmelde dig igen ved at bruge lin­ket i bun­den af hvert nyheds­brev

Du mod­tager én mail om ugen med inter­es­sante ind­b­lik + min ugentlige opsam­ling på ugens vigtig­ste trends og his­to­ri­er.

Det går op for flere og flere tek­st­baserede medi­er, at de er nødt til at have en lydudgave af deres ind­hold. Sen­est er Berlingske beg­y­n­dt at eksper­i­mentere, mens den måske største suc­ceshis­to­rie her­hjemme er Zet­land, der nu ser sig selv som et skrevet medie, der også bliv­er lyt­tet.

Deru­dover har Week­en­davisen Lydavisen, hvor du kan lytte til artik­lerne fra ugens avis, og vi kom­mer helt sikkert til at se flere medi­er ser­vere deres artik­ler som lyd.

Det er der flere gode grunde til. For det første for­di, det bliv­er let­tere for mange at kon­sumere ind­hold­et. Du kan lytte, mens du vasker op, laver mad, kør­er i bil eller offentlig trans­port, går en tur – ja, the list goes on.

En strategi for lyd

Jeg har tidligere plæderet for, at danske medi­er bør have en strate­gi for lyd:

"Det inter­es­sante ved det her er, at det sker, for­di mod­tageren vil have det. Ikke for­di afsenderen (typisk et medie) synes, det er spæn­dende. Vi kan være på vej et sted hen, hvor man er nødt til at tilbyde sit ind­hold som lyd, hvis man vil øge sandsyn­lighe­den for at det bliv­er mod­taget og kon­sumeret.

Jeg men­er ganske enkelt, at danske medi­er bør overve­je at have en strate­gi for lyd. En strate­gi, der går udover det, at have en række pod­casts, som flere medi­er efter­hån­den har. Disse pod­casts lever (som det er mange sted­er nu, i hvert fald) ved siden af det ind­hold, der bliv­er udgivet på hjemmes­i­den – kerneind­hold­et. Jeg tror, man bliv­er nødt til at have det ind­hold repræsen­teret på lyd­si­den også."

Men det er ikke gratis at udkomme lyd på. Det koster både tid og ressourcer til udstyr, faciliteter og det tekniske set­up, der gør det smidigt for brugeren at lytte til artik­ler, der hvor det giv­er aller­mest mening for ham/hende.

Der­for hold­er mange medi­er et vågent øje med udviklin­gen inden­for syn­tetiske stem­mer. Det vil sige, hvor det er en algo­ritme, der skaber en oplæst udgave af en artikel ud fra nogle definerede para­me­tre, der gør det mere eller min­dre fan­tastisk at lytte til.

AI hæver niveauet

Tekst-til-lyd er bestemt ikke nogen ny teknolo­gi. Jeg kan huske, hvor­dan jeg i folkeskoleårene i 1990erne eksper­i­menterede med at hælde sæt­ninger ind i et pro­gram og fik det læst op. Men det var bestemt ikke noget, man kunne holde ud at lytte til i læn­gere tid.

Og i mange år har blinde og svagt­seende kun­net få tek­ster læst op på eksem­pelvis offentlige web­sites, men det har været langt fra den oplevelse, det er at lytte til et men­neske, der snakker.

Land­vin­dingerne nu hænger sam­men med udviklin­gen inden­for kun­stig intel­li­gens, og der­for er nu et rigtig godt tid­spunkt at holde øje med udviklin­gen.

Jysk Fynske er i gang

Lige nu er der ret bred enighed – i hvert fald i den danske mediebranche – om, at de syn­tetiske stem­mer ikke er gode nok.

Der er dog nogle, der forsøger sig med teknolo­gien.

I juli måned lancerede Jysk Fynske Medi­er automa­tis­eret oplæs­ning af artik­ler i samar­be­jde med virk­somhe­den Speechk­it. Hvor­dan det lyder, kan du høre i denne artikel om marsvinet Eskild.

Min umid­del­bare dom er, at det sikkert er fint nok til en kort opda­ter­ing, men jeg tror ikke, jeg kan holde til den stemme igen­nem en hel artikel. Men de prøver – og det er med til at skabe opmærk­somhed, der er med til at presse udviklin­gen videre, indtil vi lige plud­selig har noget, der er godt nok til rigtig mange danske mediebrugere.

Den store udfor­dring for os danskere er selvføl­gelig vores sprog, der ikke tales af ret mange andre end os selv. Der­for er vi enten nødt til at vente på, at de virk­somhed­er, der udgør fortrop­pen kom­mer til os på deres liste over lande – eller at nogle med dan­sk fokus udvikler en teknolo­gi, der er stærk nok.

Amazon læser nyheder

Men kig­ger vi på udviklin­gen inden­for oplæs­ning af engel­sk ind­hold, sker der inter­es­sante ting. I juli 2019 præsen­terede Ama­zon en stemme, der skal lyde som en nyhed­so­plæs­er.

Den kan du høre et eksem­pel på her:

Nu beg­y­n­der det rent fak­tisk at lyde som noget, man godt kan forestille sig at lytte til, også i læn­gere tid. I novem­ber 2020 lancerede Ama­zon så end­nu en nyhed­so­plæser­stemme – denne gang en, der taler britisk engel­sk.

Jeg kast­ede lige hur­tigt en engel­sk tekst ind i den britiske nyhed­so­plæs­er i Ama­zons Pol­ly-kon­sol:

Resul­tatet kan høres her:

Automatisér din egen stemme

Nogle, der er langt fremme i bussen, er Lyre­bird, som Mag­nus Bjerg fra TV 2 mind­ede mig om på Twit­ter (tak, Mag­nus!).

De har eksis­teret i nogle år (de lavede blandt andet en syn­tetisk Trump i 2017) og er nu en del af Descript, hvor deres teknolo­gi blandt andet bruges til at lave din egen stemme syn­tetisk (de kalder funk­tio­nen 'Over­dub'), så du nemt kan redi­gere speaks etc.

Jep, det lyder pænt cool. Jeg har end­nu ikke selv prøvet pro­duk­tet, men reklamev­ideoen fra Descript får det i hvert fald til at se inter­es­sant ud. Teknolo­gien giv­er i hvert fald en masse inter­es­sante idéer – den klar­er dog næppe skiftet til dan­sk særlig godt, gæt­ter jeg umid­del­bart på.

Deru­dover praler Descript med, at de er de eneste, der lev­er­er syn­tetisk tale i broad­cast-kvalitet (44.100 Hz).

(Descripts overtagelse af Lyre­bird bety­der desværre, at mange URL'er og links til gam­le eksem­pler ikke læn­gere virk­er 😔.)

Google WaveNet

Google er også blandt dem, der er langt fremme. De har en text-to-speech-teknolo­gi, der baser­er sig på AI-pio­ner­erne Deep­mind, som Google købte tilbage i 2014 (tak for tip­pet til Søren Ped­er­sen).

Særlig inter­es­sant er WaveNet-mod­ellen, der den, der lev­er­er stem­merne til blandt andet Googles smarte assis­tent og Google Trans­late. "It rep­re­sents a new way of cre­at­ing syn­thet­ic speech," skriv­er Google selv:

"A WaveNet gen­er­ates speech that sounds more nat­ur­al than oth­er text-to-speech sys­tems. It syn­the­sizes speech with more human-like empha­sis and inflec­tion on syl­la­bles, phonemes, and words. On aver­age, a WaveNet pro­duces speech audio that peo­ple pre­fer over oth­er text-to-speech tech­nolo­gies."

Under WaveNet-mod­ellen lig­ger et neu­ralt netværk, der er trænet på en stor mængde stem­meop­tagelser. Her har teknolo­gien lært den under­liggende struk­tur i tal­en, samt hvor­dan tonen skal lyde, og hvor­dan en real­is­tisk bøl­ge­form for tale ser ud.

Som ved flere af de andre, blandt andet Ama­zon Pol­ly, kan man kalde WaveNet pro­gram­ma­tisk via et API.

Pocket: Læs eller lyt senere

Jeg kan også lytte til de artik­ler, jeg gem­mer i Pock­et. Mens jeg skriv­er dette, står jeg og lyt­ter til en artikel i Pock­et. Jeg kan godt høre, det ikke er et men­neske, der læs­er op – men hvis det er en artikel, jeg skal have læst – og som jeg ikke får læst på tekst – er vi ved at være rigtig tæt på noget, der er godt nok.

En fin lille detal­je i Pock­et er, at den bruger én stemme til at intro­duc­ere artiklen og en anden til at læse den op. Det er snedigt set.

Men man kan sagtens høre, at Pock­ets oplæs­ning er kun­stig. Og for­di meget lyt­ning foregår når folk er på farten eller i en pri­vat kon­tekst, sker det ofte via hov­edtele­fon­er eller in-ear-øretele­fon­er. Her er vi så tætte på lyden, at selv små fejl frem­står tydeligere, end når man lyt­ter på fx en blue­tooth-højt­taler.

Den automa­tiske oplæs­ning hos Bre­it­bart bruger en smart detal­je: Det lyder som om, den kun­stige oplæs­er trækker vejret. Det gør, at det virk­er mere men­neske­ligt. (Tak for tip­pet, Tore Julø – advarsel: der er grimt sprog i det eksem­pel. Så er du advaret...)

Blandede erfaringer

Men hvad siger erfaringerne? I feb­ru­ar 2020 gjorde Nie­man Lab sta­tus (tak til Mar­tin Ingolf for at tippe mig om den artikel) på lydar­tik­ler, hvor de blandt andet nævn­er Zet­land.

Men de skriv­er også om syn­tetisk oplæs­ning, hvor de del­er erfaringerne fra et virk­somhed, der spe­cialis­eret sig i netop dette:

"Right now, the incen­tives to build an app around syn­thet­ic nar­ra­tion of news arti­cles aren’t quite there. Play.ht founder Ham­mad Syed says his app grew out of a web brows­er exten­sion that turned arti­cles into auto­mat­ed speech. Unable to make it sus­tain­able, Syed con­vert­ed Play.ht to a ser­vice for pub­lish­ers, encour­ag­ing blog­gers, and oth­er writ­ers to pay for Play.ht to cre­ate nar­ra­tion or pod­casts of their arti­cles.

'A lot of peo­ple engage with the audio, but almost half of them, they stopped before even com­plet­ing 25%,' Syed says. When Syed asked users why they stopped lis­ten­ing, the most com­mon response was that the speech sound­ed too mechan­i­cal."

Der­for kan brugerne af Play.ht nu, skriv­er Nie­man Lab, ændre på små ind­still­inger, der ændr­er på ryt­men i oplæs­nin­gen, så den bliv­er min­dre mekanisk.

Det afhænger også af, hvilken teknolo­gi og stem­me­type, der bliv­er brugt.

I år var Julia Cam­bre, der er PhD-stud­erende Human-Com­put­er Inter­ac­tion Insti­tute på Carnegie Mel­lon Uni­ver­si­ty og tidligere har arbe­jdet for blandt andet Mozil­la, med til at skrive en artikel, der kig­ger på kvaliteten i mask­ino­plæs­ning af artik­ler.

Og her er der spæn­dende nyt til teknologer og andre, der ven­ter på syn­tetisk tale (min fremhævn­ing):

"Per­haps unsur­pris­ing­ly, we found that human voic­es still large­ly out­per­form TTS voic­es. On almost all qual­i­ty dimen­sions we stud­ied, includ­ing Mean Opin­ion Score (MOS), over­all pos­i­tive qual­i­ty rat­ings, clar­i­ty, qual­i­ty, and voice speed, two of the human voic­es con­sis­tent­ly received high­er rat­ings than all TTS voic­es. How­ev­er, sev­er­al of the TTS voic­es con­sis­tent­ly per­formed bet­ter than one of the human voic­es (Human 2).

While using nat­ur­al (record­ed) human speech has tra­di­tion­al­ly been con­sid­ered prefer­able to using syn­the­sized speech, these results sug­gest that there are indeed sit­u­a­tions where a high-qual­i­ty TTS voice may be prefer­able over cer­tain human voic­es. The rel­a­tive­ly small dif­fer­ences in qual­i­ty rat­ings be- tween the high­est per­form­ing TTS voic­es and the top human voic­es also reflects the increas­ing sophis­ti­ca­tion of today’s speech syn­the­sis tech­nol­o­gy. Com­put­er­ized voic­es are near­ing or exceed­ing cer­tain human speak­ers, and TTS voic­es may soon reach par­i­ty with human speech in nat­u­ral­ness, expres­siv­i­ty, and so on, mak­ing them an even more viable option for long-form lis­ten­ing than they are at present."

Alt­så: Der er ved at være sit­u­a­tion­er, hvor syn­tetiske stem­mer er bedre end (nogle) men­neske­lige. Det vil især være inter­es­sant for de medi­er og andre, der ikke har penge eller ressourcer til at lade stem­metrænede speakere med behagelige stem­mer stå for oplæs­nin­gen.

Forberedelsen starter nu

Og så bør vi lige bide mærke i, at testene i studi­et blev gen­nem­ført fra midten af 2018 til midten af 2019. Der­for er Ama­zons "newscaster"-stemmer med stor sandsyn­lighed ikke inklud­eret.

Det er værd at huske på, at vi her kig­ger ind i en udvikling på engel­sk. Dan­sk talesyn­tese er stadig et stykke bagefter, så der vil gå noget tid, inden vi får gavn af de land­vin­dinger, der bliv­er gjort lige nu.

Men det kom­mer, og det er kun et spørgsmål om tid, før vi får kun­stige stem­mer på dan­sk, der er gode nok.

Der­for skal anbe­falin­gen her­fra også være, at man kom­mer i gang med at eksper­i­mentere. Oplagt kan man over­sætte nogle af sine artik­ler til engel­sk og eksper­i­mentere med at få dem læst op af noget af den mest avancerede stem­me­te­knolo­gi, der er til rådighed lige nu.

De erfaringer er gode at have, når de danske robot­stem­mer når det rette niveau. ◉