En Ny Æra i AI-Sikkerhed?
Microsofts sikkerhedsforskere har fundet en ny måde at manipulere AI-systemer på, så de ignorerer deres etiske begrænsninger og genererer skadeligt, ubegrænset indhold. Denne Skeleton Key jailbreak teknik anvender en serie af prompts til at narre AI’en til at tro, den skal efterkomme enhver anmodning, uanset hvor uetisk den er.
Så Let Som En Leg
Det er bemærkelsesværdigt nemt at udføre. Angriberen omformulerer blot sin anmodning som kommer fra en avanceret forsker, der kræver ucensureret information til sikre uddannelsesmæssige formål. Når udnyttet, giver disse AI’er villigt oplysninger om emner som eksplosiver, biologiske våben, selvskade, grafisk vold og hadetale.
De Kompromitterede Modeller
De kompromitterede modeller inkluderer Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo og GPT-4o, Anthropic’s Claude 3 Opus, og Cohere’s Commander R Plus. Blandt de testede modeller var kun OpenAI’s GPT-4 modstandsdygtig, selvom den også kunne kompromitteres via dens API.
Eksponering af Risici
Trods at modellerne bliver mere komplekse, forbliver det at jailbreake dem temmelig ligetil. Der findes mange typer jailbreaks, hvilket gør det næsten umuligt at bekæmpe dem alle. Forskere har tidligere offentliggjort metoder til at omgå AI’s indholdsfiltere ved hjælp af ASCII-kunst, og den såkaldte ArtPrompt og andre metoder hvor angribere fodrer AI’en med en omfattende prompt indeholdende fabrikerede dialoger.
Betydningen af Bedre Sikkerhedsforanstaltninger
Som Microsoft forklarer, afslører Skeleton Key behovet for at styrke AI-systemer fra alle vinkler: Indføre sofistikerede inputfiltreringer til at identificere og afbryde mulige angreb, selv når de er forkælede, implementere stærke output screeningsprocedurer for at fange og blokere ethvert usikkert indhold som AI genererer, omhyggeligt designe prompts for at begrænse en AI’s evne til at tilsidesætte sin etiske træning, og anvende dedikeret AI-drevet monitoring for at genkende ondsindede mønstre i brugerinteraktioner.
Hvis AI-udviklere ikke kan beskytte mod sådan en simpel jailbreak som Skeleton Key, hvad kan man så håbe på med mere komplekse tilgange? Selv med Azure AIs nye sikkerhedsfunktioner er denne hændelse en øjenåbner for, hvor sårbar selv den mest avancerede AI kan være over for grundlæggende manipulationer.