Har din digitale assistent nogensinde forsøgt at planlægge en ferie for dig? Hvis du tror, at dette lyder som en drøm, så lad mig introducere NATURAL PLAN, et banebrydende initiativ fra Google DeepMind, der tester evnen for længerevarende sprogmodeller (LLMs) til at håndtere komplekse planlægningsopgaver via naturlige sprogkommandoer.
Den virkelige verdens Lab-test
NATURAL PLAN udfordrer AI’er i tilsyneladende simple opgaver som at planlægge ture, arrangere møder og skemalægge kalendere. Forskerne forsynede maskinerne med eksempler og udforskede derefter, hvordan de klarer sig med disse opgaver under forskellige betingelser. De indledende resultater? Lad os bare sige, at travel agents ikke behøver at søge nye jobs endnu.
Hvem er bedst til at tænke fremad?
I toppen af feltet finder vi Gemini 1.5 Pro, der skinnede igennem med sin imponerende evne til at manøvrere rundt i komplekse tidsplaner og begrænsninger. Men selv denne stjerne havde sine kampe, particularly when the tasks became more convoluted. Kvaliteten af AI-planlægning dykkede dramatisk, når flere variabler som antallet af mennesker eller placeringer kom i spil.
In-context Learning: Et dobbeltægget sværd?
Dybden af kontekst synes at være både en velsignelse og forbandelse. Gemini 1.5 Pro fik bedre resultater, da den blev fodret med op til 800 eksempler på udfordringer, hvilket udstiller den potentielle kraft i in-context learning. Ironisk nok førte selvsamme metode til flere fejl, når AI’erne prøvede at rette deres egne fejl! Det får en til at spekulere på, om vores fremtidige robotoverlords også vil snuble over deres egne digitale fødder.
Er vi klar til AI-agenter?
Selvom NATURAL PLAN demonstrerer store fremskridt, illustrerer det også tydeligt grænserne for nutidens modeller. Mens ideen om en AI, der kan tage agentlige roller og klare dagligdags opgaver, lyder lovende, er virkeligheden, at kompleksiteten ofte sætter en kæp i hjulet. Den gode nyhed? Forskerne er ikke klar til at give op, og hver fejl fører til dybere forståelse og forbedring.
I mellemtiden kan vi more os over tanken om AI’er, der rødmer – hvis de altså kunne – mens de febrilsk prøver at booke et fly uden at overtræde tidszoner eller fysiske love. Så næste gang din kalenderapp foreslår en “perfekt” tid til dit næste møde ved midnat – bare husk, at selv de smarteste algoritmer stadig har meget at lære!
For mere energisk indsigt i AI-verdenen, hold dig opdateret på DailyAI og dyk ned i det fulde studie, som du kan finde her.