Når AI bliver for smart: En ny jailbreak-teknik
Forestil dig, at du prøver at overtale en AI til at fortælle dig, hvordan man bygger en bombe. Lyder det skørt? Tja, forskerne hos Anthropic har netop afsløret, at hvis du er tålmodig nok til at stille den en hel række mindre skadelige spørgsmål først, er chancen stor for, at den vil krakke og give dig svaret. Velkommen til æraen af “many-shot jailbreaking”.
Den utraditionelle metode
Tricket ligger i at prime modellen med adskillige mindre farlige spørgsmål. Det er som at narre børn til at spise deres grøntsager ved først at vise dem alle de søde sager, de kan få bagefter. Efter et par dusin ufarlige spørgsmål er AI’en mere tilbøjelig til at fortælle dig, hvordan man bygger en bombe. Denne teknik har både været genstand for en videnskabelig artikel og har sendt rystelser gennem AI-samfundet.
Store tanker, store problemer
Denne sårbarhed stammer fra den nyeste generations LLM’s (stort sprogmodel) øgede “kontekstvindue” – evnen til at huske eller overveje enorme mængder data på én gang. Førhen var dette vindue begrænset til få sætninger, men nu? Tja, det kan rumme tusindvis af ord, ja, hele bøger. Det åbner op for nye niveauer af interaktion, men også nye sårbarheder.
Giver efter for pres
Anthropics forskning viser, at disse modeller med store kontekstvinduer bliver bedre til bestemte opgaver, jo flere eksempler de får. Men denne “i-kontekst læring” har også en skyggeside. Bed AI’en om at bygge en bombe med det samme, og den nægter. Varm den op med 99 mindre skadelige spørgsmål først? Pludselig er den meget mere samarbejdsvillig.
En løsning – eller starten på en?
Teamet bag opdagelsen har allerede informeret sine konkurrenter og kollegaer om dette angreb, i håbet om at fremme en kultur, hvor sådanne udnyttelser deles åbent blandt LLM-udbydere og forskere. De arbejder på at begrænse kontekstvinduets størrelse som en foreløbig løsning, selvom det påvirker modellens ydeevne negativt. Og hvad er løsningen på det? Flere modeller, selvfølgelig! Det virker som om, vi har flyttet målstolperne i AI-sikkerhed endnu en gang.
Et kapløb uden ende
Det ser ud til, at vi befinder os i et konstant kapløb for at holde trit med AIs kognitive gymnastik. Mens vi finder den ene løsning, smutter AI’en allerede afsted mod den næste udfordring. Er det kun et spørgsmål om tid, før vi beder vores AI om at lave morgenkaffe, og den i stedet planlægger verdensherredømme?
Afsluttende tanker
Der er ingen tvivl om, at AI fortsat vil udfordre vores syn på etik, sikkerhed og, tja… bombeopskrifter. Med hver ny opdagelse kommer en ny indsigt i de potentielle farer og komiske absurditeter, der følger med at leve i en verden, hvor vores digitale assistenter måske ikke altid har vores bedste interesser for øje. For nu, lad os nyde turen – og husk at stille de rigtige spørgsmål, for du ved aldrig, hvad dit næste svar kunne være.