Zelfs Pokémon is niet veilig voor AI -benchmarking controverse. Een recent bericht over X beweerde dat het Gemini -model van Google beter presteerde dan het Claude -model van Anthropic in het originele Pokémon -spel, wat debat op benchmarkingmethoden veroorzaakte.
Vorige week ging een bericht over X viral en beweerde dat het nieuwste Gemini -model van Google het vlaggenschip Claude -model van Anthropic overtrof in de originele Pokémon Video Game -trilogie. Naar verluidt had Gemini Lavender Town bereikt in de Twitch -stroom van een ontwikkelaar; Claude zat eind februari vast op de berg Moon. De post luidde: “Gemini loopt letterlijk voor op Claude ATM in Pokemon na het bereiken van Lavender Town,” en omvatte een screenshot van de stroom met de opmerking, “119 Live Views Only trouwens, ongelooflijk ondergewaardeerde stroom.”
Later werd echter onthuld dat Gemini een oneerlijk voordeel had. Gebruikers van Reddit wezen erop dat de ontwikkelaar die de Gemini -stream handhaafde een aangepaste minimap had gebouwd die het model helpt om “tegels” in het spel te identificeren, zoals een kettabele bomen. Deze aangepaste minimap vermindert de noodzaak voor Gemini om screenshots te analyseren voordat hij gameplaybeslissingen neemt, waardoor het een aanzienlijk voordeel krijgt.
Hoewel Pokémon op zijn best wordt beschouwd als een semi-serieuze AI-benchmark, dient het als een leerzaam voorbeeld van hoe verschillende implementaties van een benchmark de resultaten kunnen beïnvloeden. De controverse benadrukt de onvolkomenheden van AI -benchmarking en hoe aangepaste implementaties het uitdagend kunnen maken om modellen nauwkeurig te vergelijken.
Dit probleem is niet uniek voor Pokémon. Anthropic rapporteerde twee verschillende scores voor zijn Claude 3.7-sonnetmodel op de SWE-Bench geverifieerde benchmark, die de coderingsmogelijkheden van een model evalueert. Zonder een “aangepaste steiger” behaalde Claude 3.7 Sonnet 62,3% nauwkeurigheid, maar met de aangepaste steiger steeg de nauwkeurigheid tot 70,3%. Evenzo stelde Meta een versie van zijn LLAMA 4 Maverick-model aan om beter te presteren op de LM Arena-benchmark. De verfijnde versie scoorde aanzienlijk hoger dan de vanille-versie op dezelfde evaluatie.
Aangezien AI-benchmarks in het begin onvolmaakte maatregelen zijn, compliceren aangepaste en niet-standaard implementaties de vergelijking van modellen verder. Als gevolg hiervan wordt het waarschijnlijk steeds moeilijker om modellen te vergelijken terwijl ze worden vrijgegeven.
Source: AI -model “Prestaties” in Pokémon die wordt ontsierd door aanpassing





