Anthropic heeft geen technisch artikel over Claude Mythos uitgebracht, wat Kye Gomez ertoe heeft aangezet OpenMythos te lanceren, een open-sourceproject op GitHub. OpenMythos is ontworpen om de Claude Mythos-architectuur te reconstrueren met behulp van de eerste principes in PyTorch.
Het project stelt voor dat Claude Mythos een type architectuur is dat bekend staat als Recurrent-Depth Transformers (RDT’s), die fundamenteel verschillen van traditionele transformatoren. Standaardtransformatoren verwerken de invoer via een reeks unieke lagen met onafhankelijke gewichten, terwijl RDT’s een vaste reeks gewichten iteratief toepassen tijdens een enkele voorwaartse doorgang.
Deze methodologie maakt het mogelijk dat de redeneerdiepte afhangt van het aantal iteraties dat wordt uitgevoerd op het moment van inferentie. OpenMythos heeft een driedelige structuur: Prelude, Recurrent Block en Coda, waarbij de Prelude en Coda elk bestaan uit standaard transformatorlagen die één keer werken, en het Recurrent Block tot 16 keer kan herhalen.
Bij elke lusstap wordt de verborgen status bijgewerkt volgens de vergelijking: ht+1 = A·ht + B·e + Transformer(ht, e). Hier vertegenwoordigt e de gecodeerde invoer van de Prelude die in elke iteratie opnieuw wordt geïnjecteerd om de continuïteit te behouden. De matrices A en B dicteren hoeveel van de vorige verborgen toestand en de gecodeerde invoer de volgende toestand beïnvloeden.
Het Recurrent Block bevat een Mixture-of-Experts (MoE)-laag die selectief een subset van experts per token activeert, waardoor computationele diversiteit wordt vergemakkelijkt. Elke iteratie maakt gebruik van een andere selectie van experts, waardoor verschillende berekeningen mogelijk zijn terwijl de basisgewichten worden gedeeld.
OpenMythos maakt ook gebruik van Multi-Latent Attention, waardoor het KV-geheugengebruik aanzienlijk wordt verminderd. Deze architectuur maakt redeneren mogelijk zonder tussenliggende tokensemissie, in tegenstelling tot de standaard gedachteketenprompts, die het redeneren verwerken via tussenliggende tokens.
OpenMythos pakt algemene trainingsuitdagingen aan die verband houden met lusmodellen, zoals stabiliteitsproblemen zoals restexplosie en overdenken. De stabiliteit wordt gehandhaafd door af te dwingen dat de spectrale straal van matrix A kleiner dan 1 blijft, zoals aangegeven in de Parcae-architectuur.
Het stoppen van Dynamic Adaptive Computation Time (ACT) wordt geïmplementeerd om de stopcriteria voor looping te bepalen op basis van de tokencomplexiteit. Depth-Wise LoRA-adapters worden ook gebruikt om per iteratie uniek gedrag te creëren, waardoor de toename van parameters wordt geminimaliseerd.
Uit onderzoek blijkt dat een RDT met 770 miljoen parameters prestaties kan bieden die gelijkwaardig zijn aan die van een standaardtransformator met 1,3 miljard parameters. Dit geeft aan dat de redeneerdiepte toeneemt met inferentieberekeningen, waardoor bestaande paradigma’s over de relatie tussen het aantal parameters en de modelcapaciteiten worden uitgedaagd.
OpenMythos biedt een praktische implementatie voor het verkennen van de dynamiek van lusvormige transformatoren en de diepgang van de redenering, wat mogelijk toekomstige ontwikkelingen in de AI-ontwikkeling kan begeleiden. Het project levert een configureerbare PyTorch-implementatie, LTI-stabiele terugkerende injectie, diepte-gewijze LoRA-adapters en een reproduceerbare onderzoeksbasislijn.
Gomez verklaarde: “Of Mythos nu wel of niet daadwerkelijk een RDT is, OpenMythos biedt concrete middelen voor de onderzoeksgemeenschap om deze onderontdekte architectuurklasse en de implicaties ervan voor AI te onderzoeken.”








