Google’s DeepMind har for nylig lanceret Gecko, et nyskabende værktøj designet til at evaluere AI’s evne til at omdanne tekst til billeder. Men hvad gør denne benchmark så særlig? Tja, det prøver at løse den gamle diskussion om, hvilken AI der bedst kan forvandle dine vilde beskrivelser til ægte visuelle mesterværker.
En verden af forskelle
De sidste to år har budt på stor fremgang inden for billedgenererende AI som DALL-E og Midjourney, hvor hver ny version synes at være skarpere end den forrige. Men at sige hvilken model der rent faktisk er bedst, har været mere en kunst end en videnskab. Med Gecko kan vi nu få data-drevne svar!
Kunsten at forstå en prompt
En af hovedudfordringerne for AI i tekst-til-billede generering er evnen til præcist at følge detaljerne i en opgivelse og korrekt afspejle disse i det genererede billede. Gecko bruger vurderingsmetoder der minder om, hvordan mennesker evaluerer billeder, hvilket giver en mere nuanceret forståelse af AI’ens præstationer.
Detaljens dybder
Forskerne bag Gecko definerede først en omfattende datasæt af færdigheder nødvendige for generering af billeder fra tekst. Dette inkluderer rumforståelse, handling genkendelse og tekstrendering med mere. For hver af disse evner udviklede de specifikke underfærdigheder, som kunne testes separat i deres benchmarking.
Robot mod menneske
Interessant nok anvender Gecko også noget kaldet Visual Question Answering (VQA) for at måle, hvor præcist en AI følger detaljerne i en prompt. Forskere isolerer nøgleoplysninger i prompten og opretter spørgsmål baseret herpå – nogle simple og andre mere komplekse som tester forståelsen af scener eller objektrelationer.
I sidste ende viste det sig, at Google’s egen Muse-model overgik konkurrenterne som Stable Diffusion 1.5 og SDXL i Gecko testen. Måske lidt partisk, men som de selv siger: “Tallene lyver ikke!”
Så næste gang du undrer dig over, om AI virkelig har fanget essensen i din “kat der sidder på en enhjørning under en regnbue”, er svaret måske blot et Gecko-resultat væk!