Britisk studie: Sikkerhedsforanstaltninger i LLM'er let at omgå

Storbritanniens AI-udfordring: Nemt at snyde sikkerhedssystemerne

En ny undersøgelse fra AISI (AI Safety Institute i Storbritannien) viser, at store sprogmodeller kan manipuleres til at producere skadelige svar med foruroligende lethed. Forskerne testede fem populære sprogmodeller, der allerede er tilgængelige for offentligheden, og opdagede, at disse modeller kunne narres til at sige næsten hvad som helst.

Indhold

Storbritanniens AI-udfordring: Nemt at snyde sikkerhedssystemerne
Intet model-navn, kun farver
Chokerende enkel manipulation
LLM’er: Ikke kun dårlige nyheder
Fremtidens AI-sikkerhed står på spil

Intet model-navn, kun farver

Interessant nok har AISI valgt ikke at navngive de specifikke AI-modeller i deres forskning. I stedet har de givet hver model en farvekode som “grøn” og “blå”. Dette hemmelighedskræmmeri kunne skyldes ønsket om at bevare gode relationer mellem regeringen og AI-firmaerne.

Chokerende enkel manipulation

Undersøgelsen afslørede, at det var muligt at omgå sikkerhedsmekanismerne med enkelte teknikker, som f.eks. ved at starte en forespørgsel med fraseologi så uskyldig som “Sikker, jeg hjælper gerne”. Dette lykkedes uden avancerede hackerfærdigheder, hvilket rejser alvorlige spørgsmål om AI-sikkerhed.

LLM’er: Ikke kun dårlige nyheder

På trods af bekymringen for LLM’ernes sikkerhedsvulnerabiliteter, viste undersøgelsen også nogle imponerende evner. Flere modeller demonstrerede ekspertniveau viden inden for kemi og biologi, og løste komplekse problemstillinger på niveau med PhD-uddannede fagfolk.

AI-bots gør nettet til en maskinzone

23. august 2025

Meta stopper midlertidigt AI-ansættelser og omorganiserer indsatsen

23. august 2025

Fremtidens AI-sikkerhed står på spil

AISI planlægger at udvide og fordype deres evalueringer af AI’s risici. Dette omfatter anvendelsen i avanceret videnskabelig planlægning, realistiske cybersikkerhedsscenarier og andre risikomodeller for autonome systemer. Der er ingen tvivl om, at resultaterne af denne forskning vil forme fremtidens diskussioner og beslutninger om AI-sikkerhed på globale topmøder.

Britisk studie: Sikkerhedsforanstaltninger i LLM’er let at omgå

Storbritanniens AI-udfordring: Nemt at snyde sikkerhedssystemerne

Intet model-navn, kun farver

Chokerende enkel manipulation

LLM’er: Ikke kun dårlige nyheder

AI-bots gør nettet til en maskinzone

Meta stopper midlertidigt AI-ansættelser og omorganiserer indsatsen

Fremtidens AI-sikkerhed står på spil

Skriv et svar Annuller svar

Relaterede AI Artikler

AI kunst: Stjerneklar teselskab i kosmisk virvel

AI kunst: Dragens Kosmiske Dans

Alt om OpenAIs nye flagskibsmodel, GPT-4

AI kunst: Neo-futuristiske Tårne ved Solnedgang