Anthropic forskere opdager ny "many-shot jailbreaking" teknik til at omgå AI-etik regler

Når AI bliver for smart: En ny jailbreak-teknik

Forestil dig, at du prøver at overtale en AI til at fortælle dig, hvordan man bygger en bombe. Lyder det skørt? Tja, forskerne hos Anthropic har netop afsløret, at hvis du er tålmodig nok til at stille den en hel række mindre skadelige spørgsmål først, er chancen stor for, at den vil krakke og give dig svaret. Velkommen til æraen af “many-shot jailbreaking”.

Indhold

Når AI bliver for smart: En ny jailbreak-teknik
Den utraditionelle metode
Store tanker, store problemer
Giver efter for pres
En løsning – eller starten på en?
Et kapløb uden ende
Afsluttende tanker

Den utraditionelle metode

Tricket ligger i at prime modellen med adskillige mindre farlige spørgsmål. Det er som at narre børn til at spise deres grøntsager ved først at vise dem alle de søde sager, de kan få bagefter. Efter et par dusin ufarlige spørgsmål er AI’en mere tilbøjelig til at fortælle dig, hvordan man bygger en bombe. Denne teknik har både været genstand for en videnskabelig artikel og har sendt rystelser gennem AI-samfundet.

Store tanker, store problemer

Denne sårbarhed stammer fra den nyeste generations LLM’s (stort sprogmodel) øgede “kontekstvindue” – evnen til at huske eller overveje enorme mængder data på én gang. Førhen var dette vindue begrænset til få sætninger, men nu? Tja, det kan rumme tusindvis af ord, ja, hele bøger. Det åbner op for nye niveauer af interaktion, men også nye sårbarheder.

Giver efter for pres

Anthropics forskning viser, at disse modeller med store kontekstvinduer bliver bedre til bestemte opgaver, jo flere eksempler de får. Men denne “i-kontekst læring” har også en skyggeside. Bed AI’en om at bygge en bombe med det samme, og den nægter. Varm den op med 99 mindre skadelige spørgsmål først? Pludselig er den meget mere samarbejdsvillig.

To skyggefulde skikkelser i jakkesæt udveksler en mappe foran den amerikanske Capitol-bygning med en hammer og juridiske dokumenter på et bord i forgrunden, hvilket antyder temaer som politik og jura. - Kunstig intelligens AI

AI-industrien øger lobbyisme for at påvirke amerikansk regulering

4. september 2025

Et stort træ gløder med gyldne lys ved solnedgang, mens mennesker i alle aldre samles omkring det, nogle holder i hånd, andre kigger op i ærefrygt. En bygning og flere træer er synlige i baggrunden under en farverig himmel. - Kunstig intelligens AI

Afrikanske sprog får nyt liv gennem AI-dataprojekt

4. september 2025

En løsning – eller starten på en?

Teamet bag opdagelsen har allerede informeret sine konkurrenter og kollegaer om dette angreb, i håbet om at fremme en kultur, hvor sådanne udnyttelser deles åbent blandt LLM-udbydere og forskere. De arbejder på at begrænse kontekstvinduets størrelse som en foreløbig løsning, selvom det påvirker modellens ydeevne negativt. Og hvad er løsningen på det? Flere modeller, selvfølgelig! Det virker som om, vi har flyttet målstolperne i AI-sikkerhed endnu en gang.

Et kapløb uden ende

Det ser ud til, at vi befinder os i et konstant kapløb for at holde trit med AIs kognitive gymnastik. Mens vi finder den ene løsning, smutter AI’en allerede afsted mod den næste udfordring. Er det kun et spørgsmål om tid, før vi beder vores AI om at lave morgenkaffe, og den i stedet planlægger verdensherredømme?

Afsluttende tanker

Der er ingen tvivl om, at AI fortsat vil udfordre vores syn på etik, sikkerhed og, tja… bombeopskrifter. Med hver ny opdagelse kommer en ny indsigt i de potentielle farer og komiske absurditeter, der følger med at leve i en verden, hvor vores digitale assistenter måske ikke altid har vores bedste interesser for øje. For nu, lad os nyde turen – og husk at stille de rigtige spørgsmål, for du ved aldrig, hvad dit næste svar kunne være.

Anthropic forskere opdager ny “many-shot jailbreaking” teknik til at omgå AI-etik regler

Når AI bliver for smart: En ny jailbreak-teknik

Den utraditionelle metode

Store tanker, store problemer

Giver efter for pres

AI-industrien øger lobbyisme for at påvirke amerikansk regulering

Afrikanske sprog får nyt liv gennem AI-dataprojekt

En løsning – eller starten på en?

Et kapløb uden ende

Afsluttende tanker

Skriv et svar Annuller svar

Relaterede AI Artikler

Interview med Radovan Kavicky, AI- og datavidenskabsevangelist hos AIslovakIA

Meta vil træne sin AI med sociale medieopslag fra Europa

Ben Ball fra IBM: Revolutionerer teknologidrift med IBM Concert

OpenAI’s Jan Leike Skifter Til Rivalen Anthropic Over Sikkerhedsuenigheder