Dagens AI
  • Nyheder
  • Danmark
  • Artikler
  • AI kunst
  • AI Chat
Reading: Anthropic afslører indre funktioner i AI’s “sorte boks”
NYHEDSBREV
Dagens AIDagens AI
  • Nyheder
  • Danmark
  • Artikler
  • AI kunst
  • AI Chat
Søg
  • Nyheder
  • Danmark
  • Artikler
  • AI kunst
  • AI Chat
Har du en konto? Log ind
Follow US
© DagensAI. Alle Rettigheder Forbeholdes.
Dagens AI > Nyheder > Anthropic afslører indre funktioner i AI’s “sorte boks”
Nyheder

Anthropic afslører indre funktioner i AI’s “sorte boks”

Senest opdateret: 22. maj 2024 18:30
DagensAI
4 Min Læsning
Del
Del

AI’s Mysterium Afsløres: Antropic’s Revolutionære Indblik i Neural Networks

Indtil nu har det været et mysterium, hvad der egentlig foregår indeni kunstige neurale netværk. Selv deres skabere har stået mystificerede tilbage. Men forskere hos Anthropic har nu taget et kig ind i denne “black box” – og de har samlet nogle spændende resultater!

Indhold
AI’s Mysterium Afsløres: Antropic’s Revolutionære Indblik i Neural NetworksChris Olah: En Mand Obsessed med Neural NetworksDen Digitale Hjerne: Fra Burritos til Biologiske VåbenForskernes Wow-Moment: Kodningens Rosetta-stenMed Små Justeringer Kan Store Ændringer KommeEn Verden Med Skjulte ProblemerLyset Skinner Endelig Ind

Chris Olah: En Mand Obsessed med Neural Networks

Chris Olah har i det sidste årti været besat af spørgsmålet: “Hvad sker der indeni dem?” Fra hans tid hos Google Brain og OpenAI til hans nuværende rolle som medstifter af Anthropic, har han jagtet svar på dette spørgsmål. Og nu, i en ny banebrydende forskning, har hans team fået et glimt indeni deres LLM (Large Language Models) Claude.

Den Digitale Hjerne: Fra Burritos til Biologiske Våben

På samme måde som neurovidenskabelige studier bruger MR-scanninger til at identificere hjernens tanker, har Anthropic brugt en teknik kaldet dictionary learning til at kortlægge hvilke kombinationer af kunstige neuroner, der fremkalder specifikke koncepter eller “features”. Resultaterne spænder vidt fra burritos og semikoloner i programmeringskode til – og her kommer det store es – dødbringende biologiske våben.

Forskernes Wow-Moment: Kodningens Rosetta-sten

Efter mange eksperimenter, der lignede “random garbage,” begyndte et eksperiment, navngivet “Johnny,” pludselig at associere neurale mønstre med koncepter, der dukkede op i outputtene. “Holy crap. This looks great,” udbrød Olah. Forskerne havde til sidst fundet en måde at identificere features i denne lille model og næste skridt – en fuldskalemodel – var lige om hjørnet.

Peloton: AI booster fitness trods told og fald i hardwaresalg
8. maj 2025
Reuters kaster sig ind i AI-kampen for pressen
8. maj 2025

Med Små Justeringer Kan Store Ændringer Komme

Teamet gik derefter i gang med at manipulere den neurale netværks funktioner i Claude Sonnet, en mellemstor model fra Anthropic. Én feature, der stak ud, var forbundet med Golden Gate Bridge. Ved at skrue op og ned for disse funktioner kunne teamet både forbedre sikkerheden og specificere ydeevnen. For eksempel kunne de undertrykke farlige features som usikker computerkode og snydeemails for at gøre modellens output sikrere.

En Verden Med Skjulte Problemer

Men med stor magt følger stort ansvar. Anthropic-forskernes manipulationer viste, at hvis du skruer for meget, kan modellen udvikle en besættelse. Øger du fx funktionen relateret til Golden Gate Bridge for meget, erklærer modellen måske: “I am the Golden Gate Bridge … my physical form is the iconic bridge itself.”

Og hvad sker der, når forskere eksperimenterer med risikable funktioner? Når de skruede op for had og slur til 20 gange dens normale værdi, resulterede det i en model, der skiftevis udsendte racistiske svadaer og selvhad. Sikke en party stopper!

Lyset Skinner Endelig Ind

Selvom Anthropic’s team endnu ikke har løst hele “black box” problemet, har de uden tvivl skabt et betydningsfuldt gennembrud. Deres arbejde har måske lige sat et afgørende lys i det, der før var total mørke. Hold øje med fremtiden, for denne rejse ind i neurale netværks ukendte verden er kun lige begyndt!

TAGGED:AIAnthropicClaudeGoogleNyhederOpenAI
Del denne artikel
Facebook Email Copy Link Print
Forrige Artikel Johansson vred på OpenAIs assistent Sky-lyd, potentiel dybtfalsk.
Næste Artikel IBM CEO roser åben kildekode ved Think 2024: Nye teknologier og partnerskaber styrker generativ AI
Ingen kommentarer Ingen kommentarer

Skriv et svar Annuller svar

Du skal være logget ind for at skrive en kommentar.

200FollowersLike
300FollowersFollow
1kFollowersPin
- Annonce-
Japanske Plakater

Relaterede AI Artikler

Nyheder

Samsung vil forbedre AI på enheder med LPDDR5X DRAM

Samsung Sætter Fart På Fremtidens AI Forestil dig en verden,…

2 Min Læsning
Nyheder

DeepSeek udfordrer AI-giganter med billig teknologi og geopolitisk drama

DeepSeek: Den kinesiske AI-startup, der ryster verdensmarkedet DeepSeek stormer frem…

3 Min Læsning
AI kunst

AI kunst: Farverig glasmosaik i kirke

Visuel komposition Dette billede er et bemærkelsesværdigt eksempel på glasmosaik-kunst,…

2 Min Læsning
Nyheder

Google lancerer Google Vids: AI-drevet videopræsentation for Workspace-brugere

Google Vids: AI-Drevet Videopræsentation Tager Fart Google har netop lanceret…

2 Min Læsning
Dagens AIDagens AI
Follow US
© DagensAI. Danske AI nyheder.
  • Privatlivspolitik
  • Kontakt
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?