OpenAI vurderer GPT-4o som ‘medium’ risiko
OpenAI har klassificeret deres nyeste AI-model, GPT-4o, som ‘medium’ risiko i deres interne sikkerhedsramme. Denne vurdering er baseret på evalueringer fra både interne og eksterne teams, inklusive red teaming og testning af eksterne eksperter inden for områder som socialpsykologi, bias og misinformation.
Risici ved persuasion
GPT-4o vurderes specielt at have ‘medium’ risiko inden for persuasion. Forskere fandt ud af, at modellens skriftsamples har en højere potentiale til at påvirke læsernes meninger sammenlignet med menneskeskabt tekst, selvom dens overordnede overtalelsesevne ikke er overlegen.
Evaluering af forskellige kategorier
OpenAI’s evalueringsramme inkluderer kategorier som cybersikkerhed, biologiske trusler, persuasion og modelautonomi. Størstedelen af disse kategorier blev vurderet som ‘lav’ risiko, med undtagelse af persuasion.
Foranstaltninger for risikoreduktion
OpenAI har implementeret forskellige sikkerhedsforanstaltninger, herunder filtrering af træningsdata og finjustering af modellens adfærd efter træning. De har også gennemført automatiserede og menneskelige evalueringer gennem hele træningsprocessen.
Ekstern feedback og red teaming
Modellen har gennemgået omfattende ekstern red teaming med over 70 eksperter fra forskellige domæner for at identificere risici og forbedre sikkerhedsforanstaltningerne.
Begrænset udrulning
Den indledende udrulning af GPT-4o inkluderer tekst- og billedkapaciteter, med udvidede lyd- og videotjenester, der vil blive frigivet til betroede partnere i de kommende uger.
OpenAI’s beslutning om at frigive GPT-4o systemkortet, der beskriver sikkerhedsprotokoller og risikovurderinger, ses som et skridt mod større gennemsigtighed i udviklingen og implementeringen af avancerede AI-modeller, i en tid med stigende bekymringer over deres potentielle risici og indvirkninger.