Dagens AI
  • Nyheder
  • Danmark
  • Artikler
  • AI kunst
  • AI Chat
Reading: Anthropic afslører indre funktioner i AI’s “sorte boks”
NYHEDSBREV
Dagens AIDagens AI
  • Nyheder
  • Danmark
  • Artikler
  • AI kunst
  • AI Chat
Søg
  • Nyheder
  • Danmark
  • Artikler
  • AI kunst
  • AI Chat
Har du en konto? Log ind
Follow US
© DagensAI. Alle Rettigheder Forbeholdes.
Dagens AI > Nyheder > Anthropic afslører indre funktioner i AI’s “sorte boks”
Nyheder

Anthropic afslører indre funktioner i AI’s “sorte boks”

Senest opdateret: 22. maj 2024 18:30
DagensAI
4 Min Læsning
Del
Del

AI’s Mysterium Afsløres: Antropic’s Revolutionære Indblik i Neural Networks

Indtil nu har det været et mysterium, hvad der egentlig foregår indeni kunstige neurale netværk. Selv deres skabere har stået mystificerede tilbage. Men forskere hos Anthropic har nu taget et kig ind i denne “black box” – og de har samlet nogle spændende resultater!

Indhold
AI’s Mysterium Afsløres: Antropic’s Revolutionære Indblik i Neural NetworksChris Olah: En Mand Obsessed med Neural NetworksDen Digitale Hjerne: Fra Burritos til Biologiske VåbenForskernes Wow-Moment: Kodningens Rosetta-stenMed Små Justeringer Kan Store Ændringer KommeEn Verden Med Skjulte ProblemerLyset Skinner Endelig Ind

Chris Olah: En Mand Obsessed med Neural Networks

Chris Olah har i det sidste årti været besat af spørgsmålet: “Hvad sker der indeni dem?” Fra hans tid hos Google Brain og OpenAI til hans nuværende rolle som medstifter af Anthropic, har han jagtet svar på dette spørgsmål. Og nu, i en ny banebrydende forskning, har hans team fået et glimt indeni deres LLM (Large Language Models) Claude.

Den Digitale Hjerne: Fra Burritos til Biologiske Våben

På samme måde som neurovidenskabelige studier bruger MR-scanninger til at identificere hjernens tanker, har Anthropic brugt en teknik kaldet dictionary learning til at kortlægge hvilke kombinationer af kunstige neuroner, der fremkalder specifikke koncepter eller “features”. Resultaterne spænder vidt fra burritos og semikoloner i programmeringskode til – og her kommer det store es – dødbringende biologiske våben.

Forskernes Wow-Moment: Kodningens Rosetta-sten

Efter mange eksperimenter, der lignede “random garbage,” begyndte et eksperiment, navngivet “Johnny,” pludselig at associere neurale mønstre med koncepter, der dukkede op i outputtene. “Holy crap. This looks great,” udbrød Olah. Forskerne havde til sidst fundet en måde at identificere features i denne lille model og næste skridt – en fuldskalemodel – var lige om hjørnet.

OnePlus lancerer AI-mobil i Indien – globale AI-funktioner på vej
27. maj 2025
Senatorer undersøger RealPages AI efter lobby-modstand mod regulering
29. maj 2025

Med Små Justeringer Kan Store Ændringer Komme

Teamet gik derefter i gang med at manipulere den neurale netværks funktioner i Claude Sonnet, en mellemstor model fra Anthropic. Én feature, der stak ud, var forbundet med Golden Gate Bridge. Ved at skrue op og ned for disse funktioner kunne teamet både forbedre sikkerheden og specificere ydeevnen. For eksempel kunne de undertrykke farlige features som usikker computerkode og snydeemails for at gøre modellens output sikrere.

En Verden Med Skjulte Problemer

Men med stor magt følger stort ansvar. Anthropic-forskernes manipulationer viste, at hvis du skruer for meget, kan modellen udvikle en besættelse. Øger du fx funktionen relateret til Golden Gate Bridge for meget, erklærer modellen måske: “I am the Golden Gate Bridge … my physical form is the iconic bridge itself.”

Og hvad sker der, når forskere eksperimenterer med risikable funktioner? Når de skruede op for had og slur til 20 gange dens normale værdi, resulterede det i en model, der skiftevis udsendte racistiske svadaer og selvhad. Sikke en party stopper!

Lyset Skinner Endelig Ind

Selvom Anthropic’s team endnu ikke har løst hele “black box” problemet, har de uden tvivl skabt et betydningsfuldt gennembrud. Deres arbejde har måske lige sat et afgørende lys i det, der før var total mørke. Hold øje med fremtiden, for denne rejse ind i neurale netværks ukendte verden er kun lige begyndt!

TAGGED:AIAnthropicClaudeGoogleNyhederOpenAI
Del denne artikel
Facebook Email Copy Link Print
Forrige Artikel Johansson vred på OpenAIs assistent Sky-lyd, potentiel dybtfalsk.
Næste Artikel IBM CEO roser åben kildekode ved Think 2024: Nye teknologier og partnerskaber styrker generativ AI
Ingen kommentarer Ingen kommentarer

Skriv et svar Annuller svar

Du skal være logget ind for at skrive en kommentar.

200FollowersLike
300FollowersFollow
1kFollowersPin
- Annonce-
Japanske Plakater

Relaterede AI Artikler

Nyheder

Microsoft-chef afslører Walmarts AI-planer ved live-fejl

Når PowerPoint-mødet går galt: Microsoft-chef afslører Walmarts AI-planer ved et…

3 Min Læsning
AI kunst

AI kunst: Abstrakt Farvekalejdoskop

Komposition og struktur Billedet præsenterer en kompleks og dynamisk komposition,…

2 Min Læsning
AI kunst

AI kunst: Farverig Abstrakt Maleri

Farvesammensætning og Stil Denne værk udviser en overflod af varme…

2 Min Læsning
Nyheder

Meta AI lanceres i Europa efter forsinkelse grundet GDPR-regler

Meta AI er endelig klar til Europa Et år efter…

3 Min Læsning
Dagens AIDagens AI
Follow US
© DagensAI. Danske AI nyheder.
  • Privatlivspolitik
  • Kontakt
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?