TechBriefly NL
  • Tech
  • Business
  • Geek
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly NL
No Result
View All Result
Home Tech
AI -model “Prestaties” in Pokémon die wordt ontsierd door aanpassing

AI -model “Prestaties” in Pokémon die wordt ontsierd door aanpassing

byTB Editor
17/04/2025
in Tech
Reading Time: 2 mins read
Share on FacebookShare on Twitter

Zelfs Pokémon is niet veilig voor AI -benchmarking controverse. Een recent bericht over X beweerde dat het Gemini -model van Google beter presteerde dan het Claude -model van Anthropic in het originele Pokémon -spel, wat debat op benchmarkingmethoden veroorzaakte.

Vorige week ging een bericht over X viral en beweerde dat het nieuwste Gemini -model van Google het vlaggenschip Claude -model van Anthropic overtrof in de originele Pokémon Video Game -trilogie. Naar verluidt had Gemini Lavender Town bereikt in de Twitch -stroom van een ontwikkelaar; Claude zat eind februari vast op de berg Moon. De post luidde: “Gemini loopt letterlijk voor op Claude ATM in Pokemon na het bereiken van Lavender Town,” en omvatte een screenshot van de stroom met de opmerking, “119 Live Views Only trouwens, ongelooflijk ondergewaardeerde stroom.”

Later werd echter onthuld dat Gemini een oneerlijk voordeel had. Gebruikers van Reddit wezen erop dat de ontwikkelaar die de Gemini -stream handhaafde een aangepaste minimap had gebouwd die het model helpt om “tegels” in het spel te identificeren, zoals een kettabele bomen. Deze aangepaste minimap vermindert de noodzaak voor Gemini om screenshots te analyseren voordat hij gameplaybeslissingen neemt, waardoor het een aanzienlijk voordeel krijgt.

  De beste technische deals en kortingen op Amazon voor 26 mei 2020

Hoewel Pokémon op zijn best wordt beschouwd als een semi-serieuze AI-benchmark, dient het als een leerzaam voorbeeld van hoe verschillende implementaties van een benchmark de resultaten kunnen beïnvloeden. De controverse benadrukt de onvolkomenheden van AI -benchmarking en hoe aangepaste implementaties het uitdagend kunnen maken om modellen nauwkeurig te vergelijken.

Dit probleem is niet uniek voor Pokémon. Anthropic rapporteerde twee verschillende scores voor zijn Claude 3.7-sonnetmodel op de SWE-Bench geverifieerde benchmark, die de coderingsmogelijkheden van een model evalueert. Zonder een “aangepaste steiger” behaalde Claude 3.7 Sonnet 62,3% nauwkeurigheid, maar met de aangepaste steiger steeg de nauwkeurigheid tot 70,3%. Evenzo stelde Meta een versie van zijn LLAMA 4 Maverick-model aan om beter te presteren op de LM Arena-benchmark. De verfijnde versie scoorde aanzienlijk hoger dan de vanille-versie op dezelfde evaluatie.

Aangezien AI-benchmarks in het begin onvolmaakte maatregelen zijn, compliceren aangepaste en niet-standaard implementaties de vergelijking van modellen verder. Als gevolg hiervan wordt het waarschijnlijk steeds moeilijker om modellen te vergelijken terwijl ze worden vrijgegeven.

  GTA 6 zal geweldige graphics hebben!

Source: AI -model “Prestaties” in Pokémon die wordt ontsierd door aanpassing

Related Posts

OpenAI onderzoekt geprioriteerde advertenties voor ChatGPT-reacties

OpenAI onderzoekt geprioriteerde advertenties voor ChatGPT-reacties

Samsung onthult helderdere Freestyle+ projector voorafgaand aan CES 2026

Samsung onthult helderdere Freestyle+ projector voorafgaand aan CES 2026

De nieuwe Punkt MC03 beschikt over een gesplitst besturingssysteem voor betere privacycontrole

De nieuwe Punkt MC03 beschikt over een gesplitst besturingssysteem voor betere privacycontrole

Apple plaagt iets groots voor Fitness+ in 2026

Apple plaagt iets groots voor Fitness+ in 2026

OpenAI onderzoekt geprioriteerde advertenties voor ChatGPT-reacties
Tech

OpenAI onderzoekt geprioriteerde advertenties voor ChatGPT-reacties

Samsung onthult helderdere Freestyle+ projector voorafgaand aan CES 2026
Tech

Samsung onthult helderdere Freestyle+ projector voorafgaand aan CES 2026

De nieuwe Punkt MC03 beschikt over een gesplitst besturingssysteem voor betere privacycontrole
Tech

De nieuwe Punkt MC03 beschikt over een gesplitst besturingssysteem voor betere privacycontrole

Apple plaagt iets groots voor Fitness+ in 2026
Tech

Apple plaagt iets groots voor Fitness+ in 2026

Honor verkoopt in 2025 ruim 71 miljoen smartphones
Tech

Honor verkoopt in 2025 ruim 71 miljoen smartphones

TechBriefly NL

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.