TechBriefly NL
  • Tech
  • Business
  • Geek
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly NL
No Result
View All Result
Home Tech
AI -model “Prestaties” in Pokémon die wordt ontsierd door aanpassing

AI -model “Prestaties” in Pokémon die wordt ontsierd door aanpassing

byTB Editor
17/04/2025
in Tech
Reading Time: 2 mins read
Share on FacebookShare on Twitter

Zelfs Pokémon is niet veilig voor AI -benchmarking controverse. Een recent bericht over X beweerde dat het Gemini -model van Google beter presteerde dan het Claude -model van Anthropic in het originele Pokémon -spel, wat debat op benchmarkingmethoden veroorzaakte.

Vorige week ging een bericht over X viral en beweerde dat het nieuwste Gemini -model van Google het vlaggenschip Claude -model van Anthropic overtrof in de originele Pokémon Video Game -trilogie. Naar verluidt had Gemini Lavender Town bereikt in de Twitch -stroom van een ontwikkelaar; Claude zat eind februari vast op de berg Moon. De post luidde: “Gemini loopt letterlijk voor op Claude ATM in Pokemon na het bereiken van Lavender Town,” en omvatte een screenshot van de stroom met de opmerking, “119 Live Views Only trouwens, ongelooflijk ondergewaardeerde stroom.”

Later werd echter onthuld dat Gemini een oneerlijk voordeel had. Gebruikers van Reddit wezen erop dat de ontwikkelaar die de Gemini -stream handhaafde een aangepaste minimap had gebouwd die het model helpt om “tegels” in het spel te identificeren, zoals een kettabele bomen. Deze aangepaste minimap vermindert de noodzaak voor Gemini om screenshots te analyseren voordat hij gameplaybeslissingen neemt, waardoor het een aanzienlijk voordeel krijgt.

  Star Wars Battlefront II ontving meer dan 19 miljoen spelers uit de Epic Games Store

Hoewel Pokémon op zijn best wordt beschouwd als een semi-serieuze AI-benchmark, dient het als een leerzaam voorbeeld van hoe verschillende implementaties van een benchmark de resultaten kunnen beïnvloeden. De controverse benadrukt de onvolkomenheden van AI -benchmarking en hoe aangepaste implementaties het uitdagend kunnen maken om modellen nauwkeurig te vergelijken.

Dit probleem is niet uniek voor Pokémon. Anthropic rapporteerde twee verschillende scores voor zijn Claude 3.7-sonnetmodel op de SWE-Bench geverifieerde benchmark, die de coderingsmogelijkheden van een model evalueert. Zonder een “aangepaste steiger” behaalde Claude 3.7 Sonnet 62,3% nauwkeurigheid, maar met de aangepaste steiger steeg de nauwkeurigheid tot 70,3%. Evenzo stelde Meta een versie van zijn LLAMA 4 Maverick-model aan om beter te presteren op de LM Arena-benchmark. De verfijnde versie scoorde aanzienlijk hoger dan de vanille-versie op dezelfde evaluatie.

Aangezien AI-benchmarks in het begin onvolmaakte maatregelen zijn, compliceren aangepaste en niet-standaard implementaties de vergelijking van modellen verder. Als gevolg hiervan wordt het waarschijnlijk steeds moeilijker om modellen te vergelijken terwijl ze worden vrijgegeven.

  Wat is CS2 Care Package en hoe gebruikt u het?

Source: AI -model “Prestaties” in Pokémon die wordt ontsierd door aanpassing

Related Posts

Kodiak AI werkt samen met Bosch aan autonome semi-vrachtwagensystemen

Kodiak AI werkt samen met Bosch aan autonome semi-vrachtwagensystemen

Teradar onthult Summit terahertz-sensor op CES 2026

Teradar onthult Summit terahertz-sensor op CES 2026

Google geeft een voorproefje van Gemini AI-functies voor Google TV

Google geeft een voorproefje van Gemini AI-functies voor Google TV

Amazon betreedt de lifestyle-tv-markt met Ember Artline ter waarde van $ 899

Amazon betreedt de lifestyle-tv-markt met Ember Artline ter waarde van $ 899

Kodiak AI werkt samen met Bosch aan autonome semi-vrachtwagensystemen
Tech

Kodiak AI werkt samen met Bosch aan autonome semi-vrachtwagensystemen

Teradar onthult Summit terahertz-sensor op CES 2026
Tech

Teradar onthult Summit terahertz-sensor op CES 2026

Google geeft een voorproefje van Gemini AI-functies voor Google TV
Tech

Google geeft een voorproefje van Gemini AI-functies voor Google TV

Amazon betreedt de lifestyle-tv-markt met Ember Artline ter waarde van $ 899
Tech

Amazon betreedt de lifestyle-tv-markt met Ember Artline ter waarde van $ 899

Amazon brengt Alexa naar het internet met de lancering van Alexa.com op CES 2026
Tech

Amazon brengt Alexa naar het internet met de lancering van Alexa.com op CES 2026

TechBriefly NL

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.