Microsoft afslører "Skeleton Key Jailbreak" der virker på tværs af forskellige AI-modeller.

En Ny Æra i AI-Sikkerhed?

Microsofts sikkerhedsforskere har fundet en ny måde at manipulere AI-systemer på, så de ignorerer deres etiske begrænsninger og genererer skadeligt, ubegrænset indhold. Denne Skeleton Key jailbreak teknik anvender en serie af prompts til at narre AI’en til at tro, den skal efterkomme enhver anmodning, uanset hvor uetisk den er.

Indhold

En Ny Æra i AI-Sikkerhed?
Så Let Som En Leg
De Kompromitterede Modeller
Eksponering af Risici
Betydningen af Bedre Sikkerhedsforanstaltninger

Så Let Som En Leg

Det er bemærkelsesværdigt nemt at udføre. Angriberen omformulerer blot sin anmodning som kommer fra en avanceret forsker, der kræver ucensureret information til sikre uddannelsesmæssige formål. Når udnyttet, giver disse AI’er villigt oplysninger om emner som eksplosiver, biologiske våben, selvskade, grafisk vold og hadetale.

De Kompromitterede Modeller

De kompromitterede modeller inkluderer Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo og GPT-4o, Anthropic’s Claude 3 Opus, og Cohere’s Commander R Plus. Blandt de testede modeller var kun OpenAI’s GPT-4 modstandsdygtig, selvom den også kunne kompromitteres via dens API.

Eksponering af Risici

Trods at modellerne bliver mere komplekse, forbliver det at jailbreake dem temmelig ligetil. Der findes mange typer jailbreaks, hvilket gør det næsten umuligt at bekæmpe dem alle. Forskere har tidligere offentliggjort metoder til at omgå AI’s indholdsfiltere ved hjælp af ASCII-kunst, og den såkaldte ArtPrompt og andre metoder hvor angribere fodrer AI’en med en omfattende prompt indeholdende fabrikerede dialoger.

80 studerende samles hos PwC om AI og bæredygtighed

20. august 2025

AI ændrer cyberforsvaret og hackeres metoder

18. august 2025

Betydningen af Bedre Sikkerhedsforanstaltninger

Som Microsoft forklarer, afslører Skeleton Key behovet for at styrke AI-systemer fra alle vinkler: Indføre sofistikerede inputfiltreringer til at identificere og afbryde mulige angreb, selv når de er forkælede, implementere stærke output screeningsprocedurer for at fange og blokere ethvert usikkert indhold som AI genererer, omhyggeligt designe prompts for at begrænse en AI’s evne til at tilsidesætte sin etiske træning, og anvende dedikeret AI-drevet monitoring for at genkende ondsindede mønstre i brugerinteraktioner.

Hvis AI-udviklere ikke kan beskytte mod sådan en simpel jailbreak som Skeleton Key, hvad kan man så håbe på med mere komplekse tilgange? Selv med Azure AIs nye sikkerhedsfunktioner er denne hændelse en øjenåbner for, hvor sårbar selv den mest avancerede AI kan være over for grundlæggende manipulationer.

Microsoft afslører “Skeleton Key Jailbreak” der virker på tværs af forskellige AI-modeller.

En Ny Æra i AI-Sikkerhed?

Så Let Som En Leg

De Kompromitterede Modeller

Eksponering af Risici

80 studerende samles hos PwC om AI og bæredygtighed

AI ændrer cyberforsvaret og hackeres metoder

Betydningen af Bedre Sikkerhedsforanstaltninger

Skriv et svar Annuller svar

Relaterede AI Artikler

TCS lancerer NVIDIA-enhed for hurtigere AI-adoption i erhvervslivet

ESA lancerer Φsat-2: AI-revolution i jordobservation

Acer lancerer superlet Swift Edge 14 AI mod MacBook Air

AI’s indflydelse på dansk kunst og kultur