Meta fanget i AI-benchmark-fusk: Skandalemodellen Maverick
I weekenden lancerede Meta stolt to nye AI-modeller i deres Llama 4-familie: Scout og Maverick. Sidstnævnte blev hurtigt hypet som et mulig langtidsrival til industrigiganterne OpenAI og Google. Maverick gled elegant ind på andenpladsen på LM Arena’s prestigefyldte rangliste, med en imponerende ELO-score på 1417 – lige under Gemini 2.5 Pro og foran GPT-4o. Sejren var næsten for god til at være sand. Spoiler: Det var den.
Eksperimentel version, ikke til offentligheden
AI-forskere opdagede nemlig, at den Maverick-version, der strålede i LM Arena-duellerne, slet ikke er den samme som den offentlige. Meta indrømmer i sine egne dokumenter, at den testede version var en “eksperimentel chatversion” specifikt optimeret til samtaler. Smarte tricks blev altså brugt, og det får tekniknørder verden over til at løfte øjenbrynene.
Manipulerede benchmarks?
Som om det ikke var nok, florerer rygter på kinesiske sociale medier om, at Meta også har brugt grisede metoder til at træne sine AI-modeller direkte på testdata – en strategi enhver AI-forsker vil løbe skrigende væk fra. Disse påstande blev dog afvist af Ahmed Al-Dahle, VP for generativ AI hos Meta. Han lover, at problemerne vil blive løst, når systemet bliver mere “stabilt”. Men hvem havde troet, at AI-battle arenaen kunne føles som en politisk skandale?
Misvisende resultater – Emojis og længere svar
At benchmarks kan være “justerede” er én ting, men Mavericks performance har også vist sig at være problematisk. Den hemmelige LM Arena-version af modellen viste mere kreative og emoji-tunge svar end den offentlige model, der er… lad os bare sige, knap så spændende. For udviklere gør det det nærmest umuligt at vide, hvad man egentlig får, og Meta taber point på troværdighed.
Åbenhed eller blot en illusion?
Med deres marketingkampagne insisterer Meta på, at Llama 4-modellerne er åbne og gennemsigtige. Men når man dykker ned i detaljer som , begynder “open source” hurtigt at føles som en ret fleksibel definition. For virksomheder, der overvejer adoption, kan disse uigennemsigtige praksisser være en dealbreaker.
En lektion i AI-markedsføring gone rogue
Meta’s forsøg på at køre Maverick ind som AI-superstjerne har givet dem overskrifter – men bestemt ikke kun positive. Manipulerede benchmarks, skjulte forskelle mellem test og offentlig model, og et skævt forhold til åbenhed har fået branchen til at spørge: Har Meta spillet os mere end deres AI-modeller? Fremtiden for Llama 4 afgøres måske nærmest af en selvransagelse hos Meta… og en smule god gammeldags internetshaming.