ChatGPT blijft worstelen met een basisteltaak, ondanks verbeteringen in het onderliggende model. De chatbot stelt ten onrechte dat het woord “aardbei” twee “r”-letters bevat, terwijl het werkelijke aantal drie is. Dit probleem blijft bestaan, zelfs in de nieuwste versie, GPT-5.2, uitgebracht in december 2025. Moderne AI-systemen kunnen met gemak complexe handelingen uitvoeren, zoals het genereren van marketingafbeeldingen, het samenstellen van rapporten via agentische browsers of het componeren van topnummers. Ze aarzelen echter bij eenvoudige taken die een zevenjarige moeiteloos zou kunnen voltooien. Het tellen van de “r” in “aardbei” is een voorbeeld van deze kloof. Het woord wordt afgebroken als aardbei, wat drie exemplaren van de letter ‘r’ oplevert. Recente tests bevestigen dat het probleem nog steeds niet is opgelost. Na de lancering van GPT-5.2 leverden vragen aan ChatGPT een direct antwoord op van “twee”. Dit gebeurt ondanks miljarden dollars aan investeringen, verhoogde hardware-eisen die de RAM-prijzen hebben opgedreven, en een aanzienlijk mondiaal waterverbruik dat verband houdt met AI-training. De hoofdoorzaak ligt in het tokenized invoer- en uitvoerontwerp van grote taalmodellen zoals ChatGPT. In plaats van individuele letters te verwerken, verdeelt het systeem tekst in tokens, die hele woorden, lettergrepen of woorddelen kunnen zijn. Voor ‘aardbei’ onthult de OpenAI Tokenizer drie tokens: ‘st’, ‘raw’ en ‘berry’. Slechts twee hiervan – ‘raw’ en ‘berry’ – bevatten de letter ‘r’. Het model telt dus tokens met een “r” in plaats van individuele letters. Deze tokenisatie heeft invloed op soortgelijke woorden. ChatGPT meldt dat “framboos” ook twee “r”-en heeft, met uitzicht op de derde. Het systeem behandelt ‘berry’ als een enkel token en comprimeert de twee ‘r’s tot één eenheid. GPT-5.x maakt gebruik van de nieuwere “o200k_harmony” tokenisatiemethode, geïntroduceerd met OpenAI o1-mini en GPT-4o, maar de “strawberry”-fout blijft bestaan. OpenAI heeft sinds het debuut van ChatGPT eind 2022 veel op tokens gebaseerde problemen aangepakt. Vroege versies ondervonden problemen met specifieke zinnen die onregelmatige reacties of verwerkingsfouten veroorzaakten. Patches hebben trainingsgegevens aangepast en systemen verbeterd, waardoor gevallen zijn opgelost zoals het spellen van “Mississippi” (mississippi) of het omkeren van “lollipop” met letters in de juiste volgorde. AI-modellen presteren echter over het algemeen slecht bij nauwkeurige tellingen van kleine waarden, ook al blinken ze uit in wiskunde en probleemoplossing. Tests op klassieke problematische woorden lieten geen fouten zien buiten het bekende aardbeiengeval. ChatGPT verwerkte “Mississippi” en “lollipop” correct. Een opmerkelijk overblijfsel betreft de string “solidgoldmagikarp.” In GPT-3 veroorzaakte deze zinsnede meltdowns, waaronder beledigingen van gebruikers, onverstaanbare uitvoer en verwerkingsfouten als gevolg van tokenisatie-eigenaardigheden. GPT-5.2 vermijdt meltdown maar veroorzaakt een hallucinatie: het beweert dat “solidgoldmagikarp” een geheime Pokémon-grap is die door ontwikkelaars in GitHub-repository’s is verborgen. Activering transformeert vermoedelijk avatars, repo-pictogrammen en functies in elementen met een Pokémon-thema. Deze bewering is volkomen onjuist en komt voort uit de historische problemen van de string. Andere AI-modellen beantwoorden de ‘aardbei’-vraag correct. Perplexity, Claude, Grok, Gemini, Qwen en Copilot identificeren elk drie “r”-en. Zelfs degenen die gebruik maken van OpenAI-modellen slagen omdat ze verschillende tokenisatiesystemen gebruiken die individuele letters beter kunnen vastleggen. ChatGPT werkt als een voorspellingsmachine en vertrouwt op trainingspatronen om te anticiperen op daaropvolgende tekst in plaats van echte intelligentie op letterniveau. Tokenisatie geeft prioriteit aan efficiëntie boven letterlijk tellen, waardoor hardnekkige eigenaardigheden zoals het aardbeienprobleem worden verklaard. Sinds eind 2022 heeft OpenAI de tokenverwerking iteratief verfijnd. De eerste lancering bracht kwetsbaarheden in bepaalde snaren aan het licht, wat aanleiding gaf tot introspectieve loops of woede-achtige reacties. Systematische oplossingen waren hierop gericht, zoals de opsomming van “Mississippi”-letters en de omkering van “lollipop”, die nu nauwkeurig werken. Bredere beperkingen bij het exacte tellen blijven bestaan in alle modellen. Cijfers met een kleine waarde vormen een uitdaging voor transformatorarchitecturen, ondanks hun sterke punten op het gebied van de rekenkunde. De ‘solidgoldmagikarp’-test onderstreept de aanhoudende symbolische gevoeligheden, die evolueren van openlijke mislukkingen naar verzonnen verhalen. Vergelijkingen benadrukken de rol van tokenisatie. Perplexity gebruikt zijn eigen schema, waardoor nauwkeurige “r”-detectie in “aardbei” mogelijk is. Claude van Anthropic, Grok van xAI, Gemini van Google, Qwen van Alibaba en Microsoft’s Copilot geven allemaal de telling van drie terug. Variaties in tokengrenzen zorgen ervoor dat granulariteit op letterniveau afwezig is in de opzet van OpenAI. De OpenAI Tokenizer-tool demonstreert de splitsing: “st-raw-berry.” “St” mist “r”, terwijl “raw” er één heeft en “berry” er twee heeft, maar als één token wordt geteld. “Raspberry” volgt dit voorbeeld: tokens comprimeren de laatste “r”-en. GPT-5.2’s adoptie van “o200k_harmony” gericht op verbeterde efficiëntie uit de o1-mini- en GPT-4o-tijdperken, maar de aardbei-tokenisatie behoudt de fout. De patchgeschiedenis van OpenAI suggereert dat gerichte interventies werken voor blootgestelde gevallen. Vroege ChatGPT vertoonde token-geïnduceerde spiralen op zinnen die niet te tellen waren. “Solidgoldmagikarp” is een voorbeeld hiervan: de tokenverwerking van GPT-3 is overbelast, wat chaos oplevert. GPT-5.2 herformuleert het als een niet-bestaand GitHub Easter Egg, waarbij fouten door middel van uitvindingen behouden blijven. Tests bevestigen de reikwijdte van de oplossingen. “Mississippi” vermeldt nu elf letters nauwkeurig: vier “i”s, vier “s”s, twee “p”s, één “m”. ‘Lollipop’ verandert in ‘pillopol’, intact. Desondanks blijven er tekorten bestaan in de kerntellingen. Modellen benaderen in plaats van nauwkeurig op te sommen in beperkte contexten. Alternatieve aanbieders omzeilen via aangepaste tokenizers. De zoekondersteunde aanpak van Perplexity, de constitutionele training van Claude, de realtime gegevens van Grok, de multimodale parsing van Gemini, de meertalige optimalisatie van Qwen, de afstemming van de bedrijfsprocessen van Copilot – het maakt allemaal een correcte aardbeireactie mogelijk. Deze ongelijkheid onderstreept dat tokenisatie cruciaal is. De bytepaarcodering van OpenAI geeft prioriteit aan algemene subwoorden, waardoor zeldzame letterverdelingen in verbindingen als ‘aardbei’ worden opgeofferd. Historische context: de lancering eind 2022 werd overspoeld met berichten over symbolische eigenaardigheden. OpenAI reageerde met snelle updates en elimineerde de meeste openlijke exploits tegen 2025. GPT-5.2, actueel op het moment van schrijven, belichaamt cumulatieve verfijningen, maar behoudt aardbei als emblematische fout. Referentienotities in de zijbalk gerelateerde inhoud: “Wist u dat ChatGPT dit kan doen?” door Amir Bohlooli, gedateerd 27 september 2025.





