Google DeepMind afslører revolutionerende AI-værktøj til at generere lydspor til videoer
Google DeepMind har netop offentliggjort deres nyeste innovation inden for AI-teknologi: et værktøj, der kan generere lydspor til videoer ved brug af videopixels og tekstprompter. Denne banebrydende teknologi, kendt som video-to-audio (V2A), kombinerer video pixels med naturlige sprogtekstprompter for at skabe rige lydbilleder, der synkroniserer perfekt med handlingen på skærmen.
Unikke Funktioner
Multimodal Input: V2A kan generere lyd baseret på både videooplysninger og tekstprompter, hvilket er mere avanceret end andre AI-værktøjer, der kun bruger tekstprompter.
Forståelse af Raw Pixels: I modsætning til eksisterende værktøjer kan V2A forstå rå pixels i videoen, hvilket gør det muligt at generere lyd uden behov for tekstprompter. Selvom tekstprompter kan forbedre nøjagtigheden.
Kapaciteter: Værktøjet kan generere forskellige typer lyd, herunder lydspor, lydeffekter og dialog, hvilket forbedrer den samlede videooplevelse markant.
Fleksibilitet og Kontrol: Brugere kan finjustere den genererede lyd ved at give både positive og negative tekstprompter for at styre output.
Integration og Anvendelse: Teknologien er designet til at arbejde med AI-genererede videoer, såsom dem der produceres af Googles Veo, samt traditionelle videofilm, inklusive arkivmateriale og stumfilm.
Træningsproces
V2A-systemet blev trænet på et datasæt, der inkluderer video, lyd og annotationer, der giver detaljerede beskrivelser af lyd samt transkriptioner af talt dialog. Træningsprocessen indebærer kodning af videoinput til en komprimeret repræsentation, efterfulgt af en diffusionsmodel, der forfiner lyden fra tilfældig støj, guidet af visuelle input og naturlige sprogprompter.
Udfordringer og Fremtidige Retninger
Lipsynkronisering: DeepMind arbejder aktivt på at forbedre værktøjets evne til at synkronisere læbebevægelser med dialog i videoer.
Videokvalitetsafhængighed: Kvaliteten af lydoutputtet er stærkt afhængig af videokvaliteten, hvilket kan føre til en markant forringelse af lydkvaliteten, hvis videoen har artefakter eller forvrængninger.
Yderligere Forskning: Forskerne fortsætter med at håndtere disse begrænsninger og forbedre værktøjets ydeevne.
Ansvarlighed og Sikkerhedsforanstaltninger
SynthID Vandmærkning: AI-genereret indhold vil blive vandmærket ved hjælp af DeepMind’s SynthID-værktøj for at forhindre misbrug.
Indsamling af Feedback: Forskerne søger forskellige perspektiver fra filmskabere og skabere for at sikre, at teknologien har en positiv indvirkning på det kreative samfund.
Sikkerhedsvurderinger: Værktøjet vil gennemgå grundige sikkerhedsvurderinger, før det frigives til offentligheden.
Denne banebrydende teknologi åbner op for betydelige kreative muligheder for filmskabere, kunstnere og musikprofessionelle, der sikrer, at lyd- og videoelementerne i AI-genererede videoer er mere nøjagtigt synkroniserede, hvilket skaber en mere indlevende og realistisk oplevelse for seerne.