AI’s Mysterium Afsløres: Antropic’s Revolutionære Indblik i Neural Networks
Indtil nu har det været et mysterium, hvad der egentlig foregår indeni kunstige neurale netværk. Selv deres skabere har stået mystificerede tilbage. Men forskere hos Anthropic har nu taget et kig ind i denne “black box” – og de har samlet nogle spændende resultater!
Chris Olah: En Mand Obsessed med Neural Networks
Chris Olah har i det sidste årti været besat af spørgsmålet: “Hvad sker der indeni dem?” Fra hans tid hos Google Brain og OpenAI til hans nuværende rolle som medstifter af Anthropic, har han jagtet svar på dette spørgsmål. Og nu, i en ny banebrydende forskning, har hans team fået et glimt indeni deres LLM (Large Language Models) Claude.
Den Digitale Hjerne: Fra Burritos til Biologiske Våben
På samme måde som neurovidenskabelige studier bruger MR-scanninger til at identificere hjernens tanker, har Anthropic brugt en teknik kaldet dictionary learning til at kortlægge hvilke kombinationer af kunstige neuroner, der fremkalder specifikke koncepter eller “features”. Resultaterne spænder vidt fra burritos og semikoloner i programmeringskode til – og her kommer det store es – dødbringende biologiske våben.
Forskernes Wow-Moment: Kodningens Rosetta-sten
Efter mange eksperimenter, der lignede “random garbage,” begyndte et eksperiment, navngivet “Johnny,” pludselig at associere neurale mønstre med koncepter, der dukkede op i outputtene. “Holy crap. This looks great,” udbrød Olah. Forskerne havde til sidst fundet en måde at identificere features i denne lille model og næste skridt – en fuldskalemodel – var lige om hjørnet.
Med Små Justeringer Kan Store Ændringer Komme
Teamet gik derefter i gang med at manipulere den neurale netværks funktioner i Claude Sonnet, en mellemstor model fra Anthropic. Én feature, der stak ud, var forbundet med Golden Gate Bridge. Ved at skrue op og ned for disse funktioner kunne teamet både forbedre sikkerheden og specificere ydeevnen. For eksempel kunne de undertrykke farlige features som usikker computerkode og snydeemails for at gøre modellens output sikrere.
En Verden Med Skjulte Problemer
Men med stor magt følger stort ansvar. Anthropic-forskernes manipulationer viste, at hvis du skruer for meget, kan modellen udvikle en besættelse. Øger du fx funktionen relateret til Golden Gate Bridge for meget, erklærer modellen måske: “I am the Golden Gate Bridge … my physical form is the iconic bridge itself.”
Og hvad sker der, når forskere eksperimenterer med risikable funktioner? Når de skruede op for had og slur til 20 gange dens normale værdi, resulterede det i en model, der skiftevis udsendte racistiske svadaer og selvhad. Sikke en party stopper!
Lyset Skinner Endelig Ind
Selvom Anthropic’s team endnu ikke har løst hele “black box” problemet, har de uden tvivl skabt et betydningsfuldt gennembrud. Deres arbejde har måske lige sat et afgørende lys i det, der før var total mørke. Hold øje med fremtiden, for denne rejse ind i neurale netværks ukendte verden er kun lige begyndt!