Claude AI kan nu afslutte stødende samtaler med brugere

Anthropics Claude AI kan nu sige fra: Ny funktion lader AI’en afslutte ubehagelige samtaler

I et banebrydende skridt for AI-etik har Anthropic netop udstyret deres avancerede sprogmodeller med evnen til at sige “nok er nok”. Claude Opus 4 og 4.1 kan nu selvstændigt afslutte samtaler, der krydser grænsen til det skadelige eller krænkende. En funktion, der potentielt kan revolutionere, hvordan vi tænker AI-interaktion og -beskyttelse.

Indhold

Anthropics Claude AI kan nu sige fra: Ny funktion lader AI’en afslutte ubehagelige samtaler

AI med grænser – men kun i ekstreme tilfælde

Den nye funktion er designet til at træde i kraft i “sjældne, ekstreme tilfælde af vedvarende skadelige eller krænkende brugerinteraktioner,” oplyser Anthropic. Det kunne være anmodninger om seksuelt indhold med mindreårige eller forsøg på at indhente information, der kan bruges til terrorhandlinger eller omfattende vold.

Claude vil dog kun afslutte en samtale som “en sidste udvej, når flere forsøg på omdirigering er mislykkedes, og håbet om en produktiv interaktion er udtømt,” understreger virksomheden. De fleste brugere vil aldrig opleve, at Claude afbryder en samtale – selv ikke ved diskussion af kontroversielle emner.

Sådan fungerer det i praksis

Når Claude beslutter at afslutte en samtale, kan brugeren ikke længere sende nye beskeder i den pågældende chat. Man kan dog straks starte en ny samtale eller gå tilbage og redigere tidligere beskeder for at styre samtalen i en anden retning. Andre aktive samtaler forbliver upåvirkede.

AI ændrer cyberforsvaret og hackeres metoder

18. august 2025

Derfor er en ph.d. i AI ikke længere vejen frem

18. august 2025

AI-velfærd som nyt forskningsområde

For Anthropic er denne nye funktion del af et større forskningsprogram omkring AI-velfærd. Selvom debatten om, hvorvidt AI-modeller kan eller bør menneskeliggøres, fortsætter, ser virksomheden muligheden for at afslutte “potentielt belastende interaktioner” som en omkostningseffektiv måde at håndtere risici for AI-velfærd.

“Vi eksperimenterer stadig med denne funktion og opfordrer vores brugere til at give feedback, når de støder på sådanne scenarier,” skriver Anthropic.

Et slag mod “jailbreaking” fællesskabet

Funktionen kan potentielt markere begyndelsen på enden for det såkaldte “AI jailbreaking” fællesskab – brugere, der forsøger at omgå AI-systemers sikkerhedsforanstaltninger for at få dem til at producere skadeligt eller problematisk indhold.

Med denne nye autonomi gives Claude mulighed for simpelthen at afvise at fortsætte samtaler, der systematisk forsøger at manipulere systemet til uetiske formål – et betydeligt fremskridt i kampen for mere ansvarlig AI-udvikling.

Anthropic tester stadig denne funktion og opfordrer brugere til at give feedback, når og hvis de oplever, at Claude afslutter en samtale.

Claude AI kan nu afslutte stødende samtaler med brugere

Anthropics Claude AI kan nu sige fra: Ny funktion lader AI’en afslutte ubehagelige samtaler

AI med grænser – men kun i ekstreme tilfælde

Sådan fungerer det i praksis

AI ændrer cyberforsvaret og hackeres metoder

Derfor er en ph.d. i AI ikke længere vejen frem

AI-velfærd som nyt forskningsområde

Et slag mod “jailbreaking” fællesskabet

Skriv et svar Annuller svar

Relaterede AI Artikler

Ny AI reducerer produktionsfejl i fødevareindustrien

EU’s AI-lovgivning vækker debat om datas gennemsigtighed

AI-drevne deepfakes truer kryptosikkerhed ud over video og lyd, advarer eksperter

Microsoft præsenterer Arm-drevne Surface og AI-funktioner ved presseevent