Google’s Nye AI Billedgenerator: Imagen 3
Google har lige lanceret deres nyeste AI billedgenerator, Imagen 3, som nu er tilgængelig for offentligheden i USA. Alt du behøver for at prøve det af, er en gratis Google-konto. Ifølge VentureBeat har Google diskret udgivet modellen denne uge, og publiceret deres forskning i en artikel tirsdag. Dette kommer to måneder efter annonceringen ved Google I/O tilbage i maj.
En Latent Diffusionsmodel med Kvalitet og Ansvar
På machine learning-platformen Hugging Face skriver Google-forskere: “Vi introducerer Imagen 3, en latent diffusion model, der genererer høj kvalitetsbilleder fra tekstprompter. Vi beskriver vores kvalitets- og ansvarsevalueringer. Imagen 3 er foretrukket over andre state-of-the-art (SOTA) modeller på evaluerings tidspunktet. Derudover diskuterer vi sikkerheds- og repræsentationsproblemer samt metoder til at minimere den potentielle skade fra vores modeller.”
Første Hånds Indtryk
Fra nogle indledende amatørtest, ser modellen ret solid ud. Når man beder om fotorealistiske billeder, leverer den relativt høj kvalitet, med nogle ganske realistiske resultater, der kan narre folk ved første øjekast. (Jeg var især imponeret over kvaliteten af billeder, da jeg bad modellen om at skabe et 35mm filme-look.) Imagen 3 fremhæver også specifikke dele af prompten, der påvirkede outputtet, så du kan justere dem, hvis du ikke kan lide resultatet.
AI’s Klassiske Tegn
Men Imagen 3’s tilbud viser stadig de velkendte tegn på AI-genererede billeder. I nogle fotos har hænderne for mange fingre, ansigter er forvrængede, og teksten giver ikke mening. (Selvom modellen kunne reproducere “Coca-Cola” og “Canon” logoerne med varemærkekrænkende nøjagtighed.)
Google vs. X
Google er ikke det eneste tech-firma, der har lanceret en ny billedmodel denne uge. X har for nylig udgivet en ny beta for deres chatbot, Grok, som også inkluderer en billedgenerator, tilsyneladende med meget få restriktioner. Brugere (specifikt Lifehackers Michelle Ehrhardt) har brugt Grok til at generere alt fra Taylor Swift i en MAGA hat til Pikachu med en AK-47.
Imagen 3: Guardrails in Aktion
Imagen 3 har derimod tydelige sikkerhedsbarrierer. Når jeg forsøger at fremkalde noget kontroversielt med Googles billedgenerator, stopper den sig selv og leder mig høfligt til Imagen 3’s FAQ for at forstå, hvorfor min prompt ikke var passende. Den nægter også at generere copyrightbeskyttet indhold, men kan blive narret til at producere det med de rigtige prompts. Som nævnt tidligere, kunne jeg generere logoer og endda få modellen til at spytte varemærkebeskyttede figurer ud som Mario og Pikachu, selvom jeg ikke kunne få dem til at engagere sig i en pistolduel.