Wikipedia tager kampen op mod AI-bots!
Wikipedia går nu offensivt til værks for at beskytte sine servere mod den massive bølge af automatiserede AI-bots, der konstant skraber data fra siden. Svaret? En officiel dataset specielt designet til brug i maskinlæring. Wikimedia Foundation har slået sig sammen med Kaggle, en platform for datavidenskab ejet af Google, for at give udviklere adgang til **strukturerede data**, der både er brugervenlige og lovlige.
Datasættet – En guldgrube for AI
Det nye datasæt, som er tilgængeligt på både **engelsk og fransk**, er optimeret til **maskinlæringsarbejdsprocesser**. Det inkluderer forskningsoversigter, korte beskrivelser, links til billeder og klart segmenterede artikelafsnit – pakket i velstrukturerede JSON-filer. Alt sammen uden besværlige referencer eller elementer som lydfiler.
Hvorfor denne strategi?
Automatiserede AI-bots har gjort livet surt for Wikipedia ved at **belaste serverne** med uforsvarlige mængder dataforespørgsler. For at mindske problemerne og samtidig hjælpe mindre virksomheder og uafhængige forskere, tilbyder Wikimedia nu en **lovlig og attraktiv alternativ løsning**. Datasættet lever op til alle kravene for licenserede data og gør det lettere at få adgang til kvalitet uden at ty til rå skrabning.
En gave til AI-udviklere
”Som stedet alle maskinlæringsfolk kommer til for værktøjer og tests, er Kaggle ekstremt begejstret over at være vært for Wikimedia Foundation’s data,” siger Kaggle-partnerships-lederen Brenda Flynn. Den nye tilgang viser Wikimedia som en aktør, der både værner om sin platform og gør verden bedre for datavidenskabsfolk.
Aldrig har AI haft det så let – og lovligt!
Datasættet skal ikke blot afhjælpe **server-presset**, men også inspirere AI-branchen til at vælge **ansvarlige metoder** for deres dataindsamling. Så næste gang din AI-model tørster efter ny viden, kan du roligt vælge Wikipedia – nu via Kaggle – og samtidig spare internettet for unødige problemer. En win-win for alle parter!