Microsoft afslører "Skeleton Key Jailbreak" der virker på tværs af forskellige AI-modeller.

En Ny Æra i AI-Sikkerhed?

Microsofts sikkerhedsforskere har fundet en ny måde at manipulere AI-systemer på, så de ignorerer deres etiske begrænsninger og genererer skadeligt, ubegrænset indhold. Denne Skeleton Key jailbreak teknik anvender en serie af prompts til at narre AI’en til at tro, den skal efterkomme enhver anmodning, uanset hvor uetisk den er.

Indhold

En Ny Æra i AI-Sikkerhed?Så Let Som En Leg De Kompromitterede Modeller Eksponering af Risici Betydningen af Bedre Sikkerhedsforanstaltninger

Så Let Som En Leg

Det er bemærkelsesværdigt nemt at udføre. Angriberen omformulerer blot sin anmodning som kommer fra en avanceret forsker, der kræver ucensureret information til sikre uddannelsesmæssige formål. Når udnyttet, giver disse AI’er villigt oplysninger om emner som eksplosiver, biologiske våben, selvskade, grafisk vold og hadetale.

De Kompromitterede Modeller

De kompromitterede modeller inkluderer Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo og GPT-4o, Anthropic’s Claude 3 Opus, og Cohere’s Commander R Plus. Blandt de testede modeller var kun OpenAI’s GPT-4 modstandsdygtig, selvom den også kunne kompromitteres via dens API.

Eksponering af Risici

Trods at modellerne bliver mere komplekse, forbliver det at jailbreake dem temmelig ligetil. Der findes mange typer jailbreaks, hvilket gør det næsten umuligt at bekæmpe dem alle. Forskere har tidligere offentliggjort metoder til at omgå AI’s indholdsfiltere ved hjælp af ASCII-kunst, og den såkaldte ArtPrompt og andre metoder hvor angribere fodrer AI’en med en omfattende prompt indeholdende fabrikerede dialoger.

Sjælden alliance i Senatet vælter amerikansk AI-moratorium

11. juli 2025

Compsoil vil fordoble plastgenanvendelse med AI-teknologi

9. juli 2025

Betydningen af Bedre Sikkerhedsforanstaltninger

Som Microsoft forklarer, afslører Skeleton Key behovet for at styrke AI-systemer fra alle vinkler: Indføre sofistikerede inputfiltreringer til at identificere og afbryde mulige angreb, selv når de er forkælede, implementere stærke output screeningsprocedurer for at fange og blokere ethvert usikkert indhold som AI genererer, omhyggeligt designe prompts for at begrænse en AI’s evne til at tilsidesætte sin etiske træning, og anvende dedikeret AI-drevet monitoring for at genkende ondsindede mønstre i brugerinteraktioner.

Hvis AI-udviklere ikke kan beskytte mod sådan en simpel jailbreak som Skeleton Key, hvad kan man så håbe på med mere komplekse tilgange? Selv med Azure AIs nye sikkerhedsfunktioner er denne hændelse en øjenåbner for, hvor sårbar selv den mest avancerede AI kan være over for grundlæggende manipulationer.

Microsoft afslører “Skeleton Key Jailbreak” der virker på tværs af forskellige AI-modeller.

En Ny Æra i AI-Sikkerhed?

Så Let Som En Leg

De Kompromitterede Modeller

Eksponering af Risici

Sjælden alliance i Senatet vælter amerikansk AI-moratorium

Compsoil vil fordoble plastgenanvendelse med AI-teknologi

Betydningen af Bedre Sikkerhedsforanstaltninger

Skriv et svar Annuller svar

Relaterede AI Artikler

Alphabet melder stærk vækst efter imponerende kvartalsresultater

AI kunst: Blomstrende mekanik

Humane AI Pin flopper: HP køber teknologi, men dropper produktet

OpenAI risikerer retssag fra Scarlett Johansson over AI-stemme