Apples studie afslører mangler i AI-modellers evne til at ræsonnere korrekt

En Ny Målestok for AI’s Begrænsninger

Apples seneste studie har afsløret, at selv de mest avancerede sprogmodeller fra giganter som Meta og OpenAI kan have lidt af en ”blondine-øjeblik”. Selvom de kan skrive smukke essays, så har de endnu ikke bestået matematikeksamen. De mangler nemlig de basale evner til at ræsonnere.

Indhold

En Ny Målestok for AI’s Begrænsninger
GSM-Symbolic: Den Nye Benchmark
Matematik i Krise
Æbleplukkeren, der gik galt
Hvem er ældst? Super Bowl Kvartbacks Og Logik

GSM-Symbolic: Den Nye Benchmark

Forskerne har skabt en ny benchmark, GSM-Symbolic, for at teste ræsonneringsevnerne hos disse modeller. Og resultaterne? Lad os bare sige, at svaret ændrer sig drastisk, hvis man bare ændrer et par ord i spørgsmålet. Det er som at spørge en papegøje om vej til bageren, og afhængigt af hvad du har på, kan svaret være alt fra “drej til venstre” til “spis en donut”.

Matematik i Krise

I sin undersøgelse legede Apple-forskerne med tal og fandt ud af, at bare det at tilføje en ekstra sætning til et matematikspørgsmål kan reducere modelens nøjagtighed med op til 65%. Dette kan forklares med, at disse modeller reagerer mere på overfladeformuleringer end selve problemets kerne. Man kan undre sig over, hvordan de ville klare sig til en 5. klasses matematikprøve!

Æbleplukkeren, der gik galt

Tag for eksempel problemet med Oliver og hans kiwier. Oliver plukkede 44 kiwier på fredag, 58 lørdag, og dobbelt så mange på søndag som fredag. Der blev insinueret, at fem kiwi var små, men det skulle ikke have påvirket den samlede optælling. Alligevel trak modellerne de små kiwier fra. Så hvad blev konklusionen? At modellerne muligvis kunne tænke som en kiwi.

Et mørkt serverrum med reoler med servere på hver side og en robotarm. På bagvæggen hænger et stort digitalt verdenskort med røde og blå highlights, som spejler sig i det blanke gulv. - Kunstig intelligens AI

Kina lancerer Kimi K2: En åben AI-udfordrer til ChatGPT-5

11. august 2025

En kvinde med langt blondt hår iført sort ærmeløst tøj poserer til højre. Til venstre lyser en rød neoncirkel med ordet SPICY mod en mørk baggrund. - Kunstig intelligens AI

Elons AI-værktøj kritiseres for at skabe ulovlige deepfakes af Taylor Swift

9. august 2025

Hvem er ældst? Super Bowl Kvartbacks Og Logik

Tilbage i 2019 afslørede et andet studie en lignende forvirring, da spørgsmål om aldrende quarterbacks blev smidt i AI-gryden. Det viser sig, at tilføjelse af en smule irrelevant baggrundsinformation kan sende disse sprogmodeller på vildspor, som en forvirret gps-enhed.

Så hvad er moralen i denne historie? Overlad endelig ikke livsvigtige matematiske beslutninger til en model, der tænker, at frugternes størrelse betyder noget i den store, saftige sammenhæng.

Apples studie afslører mangler i AI-modellers evne til at ræsonnere korrekt

En Ny Målestok for AI’s Begrænsninger

GSM-Symbolic: Den Nye Benchmark

Matematik i Krise

Æbleplukkeren, der gik galt

Kina lancerer Kimi K2: En åben AI-udfordrer til ChatGPT-5

Elons AI-værktøj kritiseres for at skabe ulovlige deepfakes af Taylor Swift

Hvem er ældst? Super Bowl Kvartbacks Og Logik

Skriv et svar Annuller svar

Relaterede AI Artikler

Google Gemini AI fjerner vandmærker: Ophavsret og etik udfordres

Google Maps revolutionerer med AI-opdatering og Immersive View-funktioner

Starmer vil introducere AI-lov i Kongens Tale

AI kunst: Neonlys på en Bar