Silicon Valley zet substantieel in op het versterken van leeromgevingen (RL) als een cruciaal hulpmiddel voor het bevorderen van AI-agenten die in staat zijn om zelfstandig complexe softwaretaken uit te voeren. Jarenlang hebben leidinggevenden bij grote technologiebedrijven het potentieel van deze agenten gehyped om de productiviteit radicaal te veranderen door namens gebruikers met applicaties te communiceren. De huidige consumentengerichte voorbeelden, zoals OpenAI’s ChatGPT Agent en Perplexity’s Comet, laten echter aanzienlijke beperkingen zien in hun vermogen om meerstapsprocessen betrouwbaar uit te voeren. Deze kloof heeft geleid tot een toename van innovatieve technieken, waarbij RL-omgevingen als veelbelovende oplossing naar voren zijn gekomen. Deze gesimuleerde oefenterreinen bootsen software-interacties uit de echte wereld na, waardoor AI-modellen met vallen en opstaan kunnen leren, net zoals hoe gelabelde datasets het vorige tijdperk van generatieve AI-doorbraken hebben aangewakkerd.
RL-omgevingen functioneren als gecontroleerde simulaties waarbij AI-agenten taken oefenen in een virtuele omgeving en beloningen of straffen ontvangen op basis van hun prestaties. Stel je een digitale werkruimte voor die een Chrome-browser repliceert, waarbij een agent de taak heeft om door Amazon te navigeren om een paar sokken te kopen. Succes kan te maken hebben met het correct selecteren van artikelen, het voltooien van het afrekenen en het vermijden van fouten zoals het kopen van de verkeerde hoeveelheid of het vastlopen in menu’s. Zoals een oprichter in een recent interview beschreef, lijkt het bouwen van deze omgevingen op “het creëren van een heel saaie videogame”. In tegenstelling tot statische datasets, die vaste input en output bieden, moeten RL-omgevingen anticiperen op en omgaan met onvoorspelbare acties van agenten, en consistente feedback leveren om het leerproces te begeleiden. Deze complexiteit vereist een robuust ontwerp om ervoor te zorgen dat de simulatie bruikbaar blijft, zelfs als agenten afwijken van de verwachte paden.
De vraag naar dergelijke omgevingen is enorm gestegen bij toonaangevende AI-labs, waaronder OpenAI, Google DeepMind, Anthropic en Meta. Jennifer Li, algemeen partner bij Andreessen Horowitz, benadrukte in een interview met TechCrunch dat “alle grote AI-laboratoria intern RL-omgevingen bouwen.” Toch heeft de ingewikkelde aard van de ontwikkeling ertoe geleid dat deze organisaties partnerschappen zijn gaan zoeken met externe leveranciers voor hoogwaardige omgevingen en evaluatietools. Deze trend heeft een golf van investeringen en ondernemerschap op gang gebracht, waarbij startups en gevestigde bedrijven racen om een deel te veroveren van wat een markt van meerdere miljarden dollars zou kunnen worden. Volgens rapporten van The Information heeft de leiding van Anthropic zelfs gesproken over het toewijzen van ruim $1 miljard aan RL-omgevingen in het komende jaar, wat de strategische prioriteit van deze technologie onderstreept.
Historische precedenten illustreren de fundamentele rol van RL in de ontwikkeling van AI. In 2016 introduceerde OpenAI “RL Gyms”, vroege raamwerken voor het trainen van agenten in gesimuleerde scenario’s. Datzelfde jaar behaalde AlphaGo van Google DeepMind een mijlpaal door een wereldkampioen te verslaan in het spel Go, waarbij RL in een gesimuleerde omgeving werd ingezet om strategische besluitvorming onder de knie te krijgen. Deze inspanningen legden de basis, maar de huidige toepassingen markeren een belangrijke evolutie. Moderne RL-omgevingen richten zich op grote, op transformatoren gebaseerde modellen die zijn ontworpen voor algemene taken in diverse softwaretools, in tegenstelling tot de gespecialiseerde, gesloten wereldsystemen zoals AlphaGo. Onderzoekers beginnen nu met geavanceerdere fundamentele modellen, maar de ambitie om breed capabele agenten te creëren introduceert nieuwe uitdagingen, zoals het garanderen van betrouwbaarheid in open interacties.
Gevestigde giganten op het gebied van datalabeling zijn agressief bezig om aan deze vraag te voldoen, waarbij ze gebruik maken van hun bestaande infrastructuur en klantrelaties. Surge, dat vorig jaar naar verluidt 1,2 miljard dollar aan inkomsten genereerde uit samenwerkingen met AI-labs als OpenAI, Google, Anthropic en Meta, heeft volgens CEO Edwin Chen een “significante toename” waargenomen in het aantal verzoeken voor RL-omgevingen. Als reactie hierop heeft het bedrijf een speciale interne organisatie opgericht die zich op de creatie ervan concentreert. Deze stap positioneert Surge voor de transitie van traditionele data-annotatie naar dynamische simulaties, waarbij wordt geprofiteerd van zijn bewezen staat van dienst in het ondersteunen van grensverleggend AI-onderzoek.
Mercor, gewaardeerd op $10 miljard, is een andere belangrijke speler die de nadruk legt op domeinspecifieke RL-omgevingen die zijn afgestemd op sectoren als codering, gezondheidszorg en recht. De startup heeft partnerschappen gesloten met OpenAI, Meta en Anthropic, en de CEO, Brendan Foody, benadrukte in een TechCrunch-interview dat “weinigen begrijpen hoe groot de kansen rond RL-omgevingen werkelijk zijn.” De aanpak van Mercor omvat het maken van gespecialiseerde simulaties die niche-uitdagingen aanpakken, zoals het navigeren door juridische databases of het analyseren van medische dossiers, waardoor de adoptie van AI in gereguleerde industrieën mogelijk wordt versneld.
Scale AI, ooit de onbetwiste leider op het gebied van datalabeling met een waardering van $29 miljard, heeft recente tegenslagen gekend. Meta’s investering van $14 miljard in een concurrerende onderneming en de pHet aanspreken van de voormalige CEO van Scale leidde tot verloren contracten met Google en OpenAI, naast interne concurrentie binnen Meta. Niettemin past Scale zich aan door uit te breiden naar RL-omgevingen. Chetan Rane, hoofd product voor agenten en RL-omgevingen van Scale, merkte op: “Dit is gewoon de aard van de business waarin [Scale AI] zich bevindt. Scale heeft bewezen dat het zich snel kan aanpassen. We deden dit in de begindagen van autonome voertuigen, onze eerste business unit. Toen ChatGPT uitkwam, paste Scale AI zich daaraan aan. En nu passen we ons opnieuw aan aan nieuwe grensgebieden zoals agenten en omgevingen.” Deze spil weerspiegelt de geschiedenis van Scale’s heruitvinding, van zelfrijdende auto’s tot de hausse aan chatbots, waardoor het positioneert om de relevantie in het agententijdperk terug te winnen.
Te midden van deze consolidatie ontwricht een groep behendige startups het landschap met gerichte innovaties. Mechanize Work, ongeveer zes maanden geleden opgericht, belichaamt een ambitieuze visie om “alle banen te automatiseren” door te beginnen met RL-omgevingen voor AI-codeermiddelen. Mede-oprichter Matthew Barnett legde uit dat het bedrijf prioriteit geeft aan een select aantal high-fidelity-omgevingen boven de volumegebaseerde aanpak van grotere bedrijven. Om toptalent aan te trekken, biedt Mechanize Work salarissen voor software-ingenieurs tot wel $ 500.000, aanzienlijk hoger dan de tarieven voor contractanten bij concurrenten als Scale of Surge. Bronnen die bekend zijn met de zaak geven aan dat Mechanize Work al samenwerkt met Anthropic bij de ontwikkeling van RL, hoewel beide partijen weigerden commentaar te geven. Deze vroege tractie suggereert dat de strategie van de startup, waarbij kwaliteit boven kwantiteit gaat, een niche zou kunnen vormen in het leveren van hoogwaardige trainingstools aan elite-laboratoria.
Prime Intellect vertegenwoordigt een nieuwe nieuwkomer, die zich richt op het bredere ecosysteem van ontwikkelaars buiten AI-labs met ommuurde tuinen. Gesteund door prominente figuren, waaronder AI-onderzoeker Andrej Karpathy, Founders Fund en Menlo Ventures, lanceerde de startup vorige maand een hub voor RL-omgevingen. Gemodelleerd als een ‘knuffelgezicht voor RL-omgevingen’, democratiseert het de toegang tot geavanceerde bronnen voor open-sourcebijdragers, terwijl er inkomsten worden gegenereerd via computerservices. Onderzoeker Will Brown benadrukte de rekenintensiteit van het opleiden van agenten in deze omgevingen en stelde: “RL-omgevingen zullen te groot worden voor één bedrijf om te domineren. Een deel van wat we doen is proberen er een goede open-source-infrastructuur omheen te bouwen. De service die we verkopen is computertechnologie, dus het is een handige opstap naar het gebruik van GPU’s, maar we denken hier meer aan op de lange termijn.” Door GPU-toegang te faciliteren, bevordert Prime Intellect niet alleen gemeenschapsgestuurde vooruitgang, maar komt het ook tegemoet aan de groeiende behoefte aan schaalbare hardwareoplossingen in AI-training.
Beleggers bekijken deze snelgroeiende sector door de lens van successen uit het verleden, in de hoop dat er een opvallende speler naar voren zal komen als de ‘Scale AI voor omgevingen’ – een dominante kracht die lijkt op hoe Scale de generatieve AI-golf aanwakkerde. De toestroom van financiering weerspiegelt het optimisme dat RL-omgevingen de volgende sprong in agentische AI zouden kunnen maken, waardoor systemen mogelijk worden die naadloos integreren met tools, op internet kunnen surfen en bedrijfsworkflows kunnen uitvoeren. Toch is de concurrentiepositie in het veld intens, waarbij Sherwin Wu van OpenAI, hoofd engineering voor zijn API-activiteiten, in een recente podcast een ‘kort’ standpunt uitdrukt over startups in de RL-omgeving. Wu benadrukte de snelle evolutie van AI-onderzoek, waardoor het voor leveranciers een uitdaging wordt om gelijke tred te houden en op consistente wijze waarde te leveren.
Centraal in de opwinding staat de bewezen impact van RL op recente AI-mijlpalen. Het o1-model van OpenAI en Claude Opus 4 van Anthropic maakten beide gebruik van versterkend leren om redeneervermogens te bereiken die de eerdere methoden overtroffen, die nu afnemende opbrengsten opleveren. Deze vooruitgang kwam voort uit investeringen in RL in combinatie met testtijdcomputing, zoals de makers van o1 eerder deelden met TechCrunch, waarbij ze gokten op de schaalbaarheid ervan met extra gegevens en bronnen. RL-omgevingen verbeteren dit door interactieve arena’s te bieden waar agenten kunnen experimenteren met tools die in de echte wereld lijken, wat mogelijk rijkere leersignalen oplevert dan alleen op tekst gebaseerde beloningen. Voorstanders beweren dat naarmate laboratoria meer rekenkracht inzetten – al een inspanning van meerdere miljarden dollars – deze simulaties duurzame vooruitgang in de richting van AI-agenten voor algemene doeleinden zouden kunnen stimuleren.
Ondanks het momentum waarschuwen sceptici voor het overhypen van RL-omgevingen. Uitdagingen zijn onder meer ‘beloningshacking’, waarbij agenten mazen in de wet exploiteren om scores te maximaliseren zonder taken echt onder de knie te krijgen, zoals opgemerkt door Ross Taylor, een voormalige onderzoeksleider van Meta AI en medeoprichter van General Reasoning. Taylor waarschuwde: “Ik denk dat mensen onderschatten hoe moeilijk het is om omgevingen te schalen. Zelfs de beste openbaar beschikbare [RL-omgevingen] werken doorgaans niet zonder serieuze aanpassingen.” Schalen vereist niet alleen meer omgevingen, maar ook verfijningen om dergelijke problemen te verminderen, zodat simulaties trouw blijven aan echte toepassingen. Zelfs openbaarc-benchmarks vereisen vaak uitgebreide aanpassingen, waardoor de kloof tussen prototype- en productieklare tools wordt benadrukt.
Andrej Karpathy, een investeerder in Prime Intellect en een pleitbezorger voor omgevingen en interacties met agenten, tempert het enthousiasme voor RL zelf. In een post op X zei hij: “Ik ben optimistisch over omgevingen en agentische interacties, maar ik ben vooral bearish over versterkend leren.” Karpathy’s genuanceerde perspectief onderstreept een breder debat: hoewel omgevingen een gestructureerd pad bieden voor de training van agenten, kan het onderliggende RL-paradigma te maken krijgen met inherente beperkingen bij het extraheren van verdere voordelen uit de huidige architecturen.








