Microsofts AI kan tale som dig – men det må du aldrig høre
Forestil dig at kunne få Stephen Fry til at fortælle din livshistorie eller få Morgan Freeman til at afspille dine telefonsvarbeskeder. Microsofts nye AI talegenerator VALL-E 2 kan netop det – og meget mere – men dessværre forbliver det kun en drøm for os almindelige dødelige.
Hvad er VALL-E 2?
Microsofts VALL-E 2 er en tekst-til-tale generator, der kan kopiere en menneskelig stemme med kun et par sekunders lydoptagelse. Ifølge udviklerne har VALL-E 2 opnået, hvad ingen tidligere AI’er har kunnet – nemlig at skabe tale, der er “lige så god som menneskelig tale”. Faktisk er den så overbevisende, at forskerne har besluttet, at den er for farlig at frigive til offentligheden.
Hvordan lykkedes det?
Lyder det som magi? Det er næsten sandt. VALL-E 2 benytter to centrale funktioner: “Repetition Aware Sampling” og “Grouped Code Modeling”. Førstnævnte forhindrer uendelige gentagelser af ord eller lyde, mens sidstnævnte gør modellen mere effektiv ved at reducere antallet af tokens – hvilket i AI-verdenen betyder lydbrudstykker.
Testene lyver ikke
For at sikre sig, at de ikke blot havde skabt en ny form for Siri, testede Microsoft deres nye vidunder på imponerende datasæt som LibriSpeech og VCTK. Med hjælp fra evalueringsrammen ELLA-V fandt de, at VALL-E 2 sprang tidligere AI’er af banen i tale-robusthed, naturlighed og lighed med den oprindelige taler.
Faren lurer
Men her bliver det lidet morsomt. På grund af potentielle misbrugsrisici – tænk spoofing af stemmeidentifikation eller efterligning af bestemte personer – har Microsoft valgt ikke at gøre VALL-E 2 offentligt tilgængelig. “Dette er kun et forskningsprojekt,” skriver forskerne strengt i et blogindlæg.
Fremtidige muligheder
Dog giver forskerne os et glimt af håb om, at VALL-E 2 en dag kan bruges til ting som læring, underholdning, tilgængelighedsfunktioner og meget mere – men selvfølgelig kun med den rette godkendelsesprotokol fra de virkelige livs stemmeejere.
Så indtil Microsoft finder ud af en sikker måde at slippe denne fantastiske teknologi løs, må vi bare nøjes med at drømme om vores næste telefonsvarers beskeder med mesterlig vellyd.