En Ny Målestok for AI’s Begrænsninger
Apples seneste studie har afsløret, at selv de mest avancerede sprogmodeller fra giganter som Meta og OpenAI kan have lidt af en ”blondine-øjeblik”. Selvom de kan skrive smukke essays, så har de endnu ikke bestået matematikeksamen. De mangler nemlig de basale evner til at ræsonnere.
GSM-Symbolic: Den Nye Benchmark
Forskerne har skabt en ny benchmark, GSM-Symbolic, for at teste ræsonneringsevnerne hos disse modeller. Og resultaterne? Lad os bare sige, at svaret ændrer sig drastisk, hvis man bare ændrer et par ord i spørgsmålet. Det er som at spørge en papegøje om vej til bageren, og afhængigt af hvad du har på, kan svaret være alt fra “drej til venstre” til “spis en donut”.
Matematik i Krise
I sin undersøgelse legede Apple-forskerne med tal og fandt ud af, at bare det at tilføje en ekstra sætning til et matematikspørgsmål kan reducere modelens nøjagtighed med op til 65%. Dette kan forklares med, at disse modeller reagerer mere på overfladeformuleringer end selve problemets kerne. Man kan undre sig over, hvordan de ville klare sig til en 5. klasses matematikprøve!
Æbleplukkeren, der gik galt
Tag for eksempel problemet med Oliver og hans kiwier. Oliver plukkede 44 kiwier på fredag, 58 lørdag, og dobbelt så mange på søndag som fredag. Der blev insinueret, at fem kiwi var små, men det skulle ikke have påvirket den samlede optælling. Alligevel trak modellerne de små kiwier fra. Så hvad blev konklusionen? At modellerne muligvis kunne tænke som en kiwi.
Hvem er ældst? Super Bowl Kvartbacks Og Logik
Tilbage i 2019 afslørede et andet studie en lignende forvirring, da spørgsmål om aldrende quarterbacks blev smidt i AI-gryden. Det viser sig, at tilføjelse af en smule irrelevant baggrundsinformation kan sende disse sprogmodeller på vildspor, som en forvirret gps-enhed.
Så hvad er moralen i denne historie? Overlad endelig ikke livsvigtige matematiske beslutninger til en model, der tænker, at frugternes størrelse betyder noget i den store, saftige sammenhæng.