Meta afsløret i AI-fusk: Maverick-modellens troværdighed under angreb

Meta fanget i AI-benchmark-fusk: Skandalemodellen Maverick

I weekenden lancerede Meta stolt to nye AI-modeller i deres Llama 4-familie: Scout og Maverick. Sidstnævnte blev hurtigt hypet som et mulig langtidsrival til industrigiganterne OpenAI og Google. Maverick gled elegant ind på andenpladsen på LM Arena’s prestigefyldte rangliste, med en imponerende ELO-score på 1417 – lige under Gemini 2.5 Pro og foran GPT-4o. Sejren var næsten for god til at være sand. Spoiler: Det var den.

Indhold

Meta fanget i AI-benchmark-fusk: Skandalemodellen Maverick
Eksperimentel version, ikke til offentligheden
Manipulerede benchmarks?
Misvisende resultater – Emojis og længere svar
Åbenhed eller blot en illusion?
En lektion i AI-markedsføring gone rogue

Eksperimentel version, ikke til offentligheden

AI-forskere opdagede nemlig, at den Maverick-version, der strålede i LM Arena-duellerne, slet ikke er den samme som den offentlige. Meta indrømmer i sine egne dokumenter, at den testede version var en “eksperimentel chatversion” specifikt optimeret til samtaler. Smarte tricks blev altså brugt, og det får tekniknørder verden over til at løfte øjenbrynene.

Manipulerede benchmarks?

Som om det ikke var nok, florerer rygter på kinesiske sociale medier om, at Meta også har brugt grisede metoder til at træne sine AI-modeller direkte på testdata – en strategi enhver AI-forsker vil løbe skrigende væk fra. Disse påstande blev dog afvist af Ahmed Al-Dahle, VP for generativ AI hos Meta. Han lover, at problemerne vil blive løst, når systemet bliver mere “stabilt”. Men hvem havde troet, at AI-battle arenaen kunne føles som en politisk skandale?

Misvisende resultater – Emojis og længere svar

At benchmarks kan være “justerede” er én ting, men Mavericks performance har også vist sig at være problematisk. Den hemmelige LM Arena-version af modellen viste mere kreative og emoji-tunge svar end den offentlige model, der er… lad os bare sige, knap så spændende. For udviklere gør det det nærmest umuligt at vide, hvad man egentlig får, og Meta taber point på troværdighed.

To store robotter med betegnelsen AI konkurrerer over et digitalt bræt, omgivet af små menneskelignende figurer og svævende tech-ikoner, der repræsenterer en kamp om kunstig intelligens i et levende, futuristisk miljø. - Kunstig intelligens AI

Google afviser kritik: AI-søgning ødelægger ikke internettet

7. august 2025

Et levende, futuristisk bybillede med selvkørende biler, smarte enheder, digitale diagrammer og en silhuet af et menneskehoved med kredsløb, der symboliserer teknologi, AI og innovation i bylivet. - Kunstig intelligens AI

AI skaber resultater: Fra lægehjælp til selvkørende biler

10. august 2025

Åbenhed eller blot en illusion?

Med deres marketingkampagne insisterer Meta på, at Llama 4-modellerne er åbne og gennemsigtige. Men når man dykker ned i detaljer som , begynder “open source” hurtigt at føles som en ret fleksibel definition. For virksomheder, der overvejer adoption, kan disse uigennemsigtige praksisser være en dealbreaker.

En lektion i AI-markedsføring gone rogue

Meta’s forsøg på at køre Maverick ind som AI-superstjerne har givet dem overskrifter – men bestemt ikke kun positive. Manipulerede benchmarks, skjulte forskelle mellem test og offentlig model, og et skævt forhold til åbenhed har fået branchen til at spørge: Har Meta spillet os mere end deres AI-modeller? Fremtiden for Llama 4 afgøres måske nærmest af en selvransagelse hos Meta… og en smule god gammeldags internetshaming.

Meta afsløret i AI-fusk: Maverick-modellens troværdighed under angreb

Meta fanget i AI-benchmark-fusk: Skandalemodellen Maverick

Eksperimentel version, ikke til offentligheden

Manipulerede benchmarks?

Misvisende resultater – Emojis og længere svar

Google afviser kritik: AI-søgning ødelægger ikke internettet

AI skaber resultater: Fra lægehjælp til selvkørende biler

Åbenhed eller blot en illusion?

En lektion i AI-markedsføring gone rogue

Skriv et svar Annuller svar

Relaterede AI Artikler

AI kunst: Solsikkefantasi med sommerfugle

Google-rapport: Ingen direkte forbindelse mellem generativ AI og arbejdsløshed pt.

AI kunst: Magisk tefest i glasmosaik

OpenAI og Broadcom slår sig sammen om udvikling af AI-chips