Anthropic afslører indre funktioner i AI's "sorte boks"

AI’s Mysterium Afsløres: Antropic’s Revolutionære Indblik i Neural Networks

Indtil nu har det været et mysterium, hvad der egentlig foregår indeni kunstige neurale netværk. Selv deres skabere har stået mystificerede tilbage. Men forskere hos Anthropic har nu taget et kig ind i denne “black box” – og de har samlet nogle spændende resultater!

Indhold

AI’s Mysterium Afsløres: Antropic’s Revolutionære Indblik i Neural Networks
Chris Olah: En Mand Obsessed med Neural Networks
Den Digitale Hjerne: Fra Burritos til Biologiske Våben
Forskernes Wow-Moment: Kodningens Rosetta-sten
Med Små Justeringer Kan Store Ændringer Komme
En Verden Med Skjulte Problemer
Lyset Skinner Endelig Ind

Chris Olah: En Mand Obsessed med Neural Networks

Chris Olah har i det sidste årti været besat af spørgsmålet: “Hvad sker der indeni dem?” Fra hans tid hos Google Brain og OpenAI til hans nuværende rolle som medstifter af Anthropic, har han jagtet svar på dette spørgsmål. Og nu, i en ny banebrydende forskning, har hans team fået et glimt indeni deres LLM (Large Language Models) Claude.

Den Digitale Hjerne: Fra Burritos til Biologiske Våben

På samme måde som neurovidenskabelige studier bruger MR-scanninger til at identificere hjernens tanker, har Anthropic brugt en teknik kaldet dictionary learning til at kortlægge hvilke kombinationer af kunstige neuroner, der fremkalder specifikke koncepter eller “features”. Resultaterne spænder vidt fra burritos og semikoloner i programmeringskode til – og her kommer det store es – dødbringende biologiske våben.

Forskernes Wow-Moment: Kodningens Rosetta-sten

Efter mange eksperimenter, der lignede “random garbage,” begyndte et eksperiment, navngivet “Johnny,” pludselig at associere neurale mønstre med koncepter, der dukkede op i outputtene. “Holy crap. This looks great,” udbrød Olah. Forskerne havde til sidst fundet en måde at identificere features i denne lille model og næste skridt – en fuldskalemodel – var lige om hjørnet.

80 studerende samles hos PwC om AI og bæredygtighed

20. august 2025

Claude AI kan nu afslutte stødende samtaler med brugere

18. august 2025

Med Små Justeringer Kan Store Ændringer Komme

Teamet gik derefter i gang med at manipulere den neurale netværks funktioner i Claude Sonnet, en mellemstor model fra Anthropic. Én feature, der stak ud, var forbundet med Golden Gate Bridge. Ved at skrue op og ned for disse funktioner kunne teamet både forbedre sikkerheden og specificere ydeevnen. For eksempel kunne de undertrykke farlige features som usikker computerkode og snydeemails for at gøre modellens output sikrere.

En Verden Med Skjulte Problemer

Men med stor magt følger stort ansvar. Anthropic-forskernes manipulationer viste, at hvis du skruer for meget, kan modellen udvikle en besættelse. Øger du fx funktionen relateret til Golden Gate Bridge for meget, erklærer modellen måske: “I am the Golden Gate Bridge … my physical form is the iconic bridge itself.”

Og hvad sker der, når forskere eksperimenterer med risikable funktioner? Når de skruede op for had og slur til 20 gange dens normale værdi, resulterede det i en model, der skiftevis udsendte racistiske svadaer og selvhad. Sikke en party stopper!

Lyset Skinner Endelig Ind

Selvom Anthropic’s team endnu ikke har løst hele “black box” problemet, har de uden tvivl skabt et betydningsfuldt gennembrud. Deres arbejde har måske lige sat et afgørende lys i det, der før var total mørke. Hold øje med fremtiden, for denne rejse ind i neurale netværks ukendte verden er kun lige begyndt!

Anthropic afslører indre funktioner i AI’s “sorte boks”

AI’s Mysterium Afsløres: Antropic’s Revolutionære Indblik i Neural Networks

Chris Olah: En Mand Obsessed med Neural Networks

Den Digitale Hjerne: Fra Burritos til Biologiske Våben

Forskernes Wow-Moment: Kodningens Rosetta-sten

80 studerende samles hos PwC om AI og bæredygtighed

Claude AI kan nu afslutte stødende samtaler med brugere

Med Små Justeringer Kan Store Ændringer Komme

En Verden Med Skjulte Problemer

Lyset Skinner Endelig Ind

Skriv et svar Annuller svar

Relaterede AI Artikler

AI kunst: Fremtidens Cyborg-By

AI kunst: Kosmisk teceremoni

NATO investerer $1,1 mia i AI, robotter og rumteknologi for forsvaret

OL overvåger atleternes sociale medier for at beskytte mod hadbeskeder