Anthropics Claude AI kan nu sige fra: Ny funktion lader AI’en afslutte ubehagelige samtaler
I et banebrydende skridt for AI-etik har Anthropic netop udstyret deres avancerede sprogmodeller med evnen til at sige “nok er nok”. Claude Opus 4 og 4.1 kan nu selvstændigt afslutte samtaler, der krydser grænsen til det skadelige eller krænkende. En funktion, der potentielt kan revolutionere, hvordan vi tænker AI-interaktion og -beskyttelse.
AI med grænser – men kun i ekstreme tilfælde
Den nye funktion er designet til at træde i kraft i “sjældne, ekstreme tilfælde af vedvarende skadelige eller krænkende brugerinteraktioner,” oplyser Anthropic. Det kunne være anmodninger om seksuelt indhold med mindreårige eller forsøg på at indhente information, der kan bruges til terrorhandlinger eller omfattende vold.
Claude vil dog kun afslutte en samtale som “en sidste udvej, når flere forsøg på omdirigering er mislykkedes, og håbet om en produktiv interaktion er udtømt,” understreger virksomheden. De fleste brugere vil aldrig opleve, at Claude afbryder en samtale – selv ikke ved diskussion af kontroversielle emner.
Sådan fungerer det i praksis
Når Claude beslutter at afslutte en samtale, kan brugeren ikke længere sende nye beskeder i den pågældende chat. Man kan dog straks starte en ny samtale eller gå tilbage og redigere tidligere beskeder for at styre samtalen i en anden retning. Andre aktive samtaler forbliver upåvirkede.
AI-velfærd som nyt forskningsområde
For Anthropic er denne nye funktion del af et større forskningsprogram omkring AI-velfærd. Selvom debatten om, hvorvidt AI-modeller kan eller bør menneskeliggøres, fortsætter, ser virksomheden muligheden for at afslutte “potentielt belastende interaktioner” som en omkostningseffektiv måde at håndtere risici for AI-velfærd.
“Vi eksperimenterer stadig med denne funktion og opfordrer vores brugere til at give feedback, når de støder på sådanne scenarier,” skriver Anthropic.
Et slag mod “jailbreaking” fællesskabet
Funktionen kan potentielt markere begyndelsen på enden for det såkaldte “AI jailbreaking” fællesskab – brugere, der forsøger at omgå AI-systemers sikkerhedsforanstaltninger for at få dem til at producere skadeligt eller problematisk indhold.
Med denne nye autonomi gives Claude mulighed for simpelthen at afvise at fortsætte samtaler, der systematisk forsøger at manipulere systemet til uetiske formål – et betydeligt fremskridt i kampen for mere ansvarlig AI-udvikling.
Anthropic tester stadig denne funktion og opfordrer brugere til at give feedback, når og hvis de oplever, at Claude afslutter en samtale.