TechBriefly NL
  • Tech
  • Business
  • Geek
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly NL
No Result
View All Result
Home Tech
Schaal AI breidt zich uit naar RL -omgevingen voor AI -agenten

Schaal AI breidt zich uit naar RL -omgevingen voor AI -agenten

byAytun Çelebi
17/09/2025
in Tech
Reading Time: 5 mins read
Share on FacebookShare on Twitter

Silicon Valley plaatst substantiële weddenschappen op de omgevingen van versterking (RL) als een cruciale hulpmiddel voor het bevorderen van AI -agenten die in staat zijn om autonoom complexe softwaretaken te behandelen. Jarenlang hebben leidinggevenden bij grote technologiebedrijven het potentieel van deze agenten gehyped om een ​​revolutie teweeg te brengen in de productiviteit door namens gebruikers te interageren met applicaties. Huidige voorbeelden van consumentengerichte consumenten, zoals de chatgpt-agent van Openai en de komeet van Pertlexity, onthullen echter belangrijke beperkingen in hun vermogen om multi-stepsprocessen betrouwbaar uit te voeren. Deze kloof heeft een toename van innovatieve technieken gestimuleerd, met RL -omgevingen die opduiken als een veelbelovende oplossing. Deze gesimuleerde trainingsgronden nabootsen van real-world software-interacties, waardoor AI-modellen kunnen leren door middel van vallen en opstaan, net als hoe gelabelde datasets het vorige tijdperk van generatieve AI-doorbraken hebben aangewakkerd. RL -omgevingen fungeren als gecontroleerde simulaties waarbij AI -agenten taken in een virtuele instelling oefenen, beloningen of boetes ontvangen op basis van hun prestaties. Stel je een digitale werkruimte voor die een chromen browser repliceert, waarbij een agent de taak heeft om in Amazon te navigeren om een ​​paar sokken te kopen. Succes kan inhouden dat het correct selecteren van items, het voltooien van het afrekenen en het vermijden van fouten zoals het kopen van de verkeerde hoeveelheid of vast komen te zitten in menu’s. Zoals een oprichter beschreef in een recent interview, is het bouwen van deze omgevingen verwant aan “het creëren van een zeer saaie videogame.” In tegenstelling tot statische datasets, die vaste ingangen en uitgangen bieden, moeten RL -omgevingen anticiperen op en omgaan met onvoorspelbare agentacties, waardoor consistente feedback wordt geleverd om het leren te begeleiden. Deze complexiteit vereist een robuust ontwerp om ervoor te zorgen dat de simulatie nuttig blijft, zelfs wanneer agenten afwijken van de verwachte paden. De vraag naar dergelijke omgevingen is gestegen tussen toonaangevende AI -laboratoria, waaronder Openai, Google DeepMind, Anthropic en Meta. Jennifer Li, een algemene partner bij Andreessen Horowitz, benadrukt in een interview met TechCrunch dat “alle grote AI-labs in eigen huis RL-omgevingen bouwen.” Toch heeft de ingewikkelde aard van de ontwikkeling ertoe geleid dat deze organisaties partnerschappen zoeken met externe leveranciers voor hoogwaardige omgevingen en evaluatiehulpmiddelen. Deze trend heeft een golf van investeringen en ondernemerschap ontstoken, met startups en gevestigde bedrijven die racen om een ​​aandeel te veroveren in wat een markt voor meerdere miljarden zou kunnen worden. Volgens rapporten uit de informatie heeft het leiderschap van Anthropic zelfs besproken dat het komende jaar meer dan $ 1 miljard wordt toegewezen aan RL -omgevingen, waardoor de strategische prioriteit van deze technologie wordt onderstreept. Historische precedenten illustreren de fundamentele rol van RL bij AI -ontwikkeling. In 2016 introduceerde Openai “RL Gyms”, vroege kaders voor trainingsmiddelen in gesimuleerde scenario’s. In datzelfde jaar behaalde de Alphago van Google Deepmind een mijlpaaloverwinning door een wereldkampioen te verslaan in het spel Go, met behulp van RL in een gesimuleerde omgeving om strategische besluitvorming te beheersen. Deze inspanningen legden de basis, maar de toepassingen van vandaag markeren een belangrijke evolutie. Moderne RL-omgevingen zijn gericht op grote transformatieregehalte modellen die zijn ontworpen voor algemene taken in verschillende softwaretools, in contrast met de gespecialiseerde, gesloten wereldsystemen zoals AlphaGo. Onderzoekers beginnen nu met meer geavanceerde fundamentele modellen, maar de ambitie om algemeen capabele agenten te creëren introduceert nieuwe uitdagingen, zoals het waarborgen van betrouwbaarheid in open interacties. Gevestigde data-labelende reuzen draaien agressief om aan deze vraag te voldoen en hun bestaande infrastructuur en klantrelaties te benutten. Surge, die naar verluidt vorig jaar $ 1,2 miljard aan inkomsten genereerde uit samenwerkingen met AI -laboratoria zoals Openai, Google, Anthropic en Meta, heeft volgens CEO Edwin Chen een “significante toename” waargenomen in verzoeken voor RL -omgevingen. Als reactie heeft het bedrijf een toegewijde interne organisatie opgericht om zich te concentreren op hun creatie. Deze zetposities stijgen naar overgang van traditionele data -annotatie naar dynamische simulaties, waardoor het bewezen trackrecord wordt gebruikt bij het ondersteunen van Frontier AI -onderzoek. Mercor, gewaardeerd op $ 10 miljard, is een andere belangrijke speler die de nadruk legt op domeinspecifieke RL-omgevingen op maat gemaakt voor sectoren zoals codering, gezondheidszorg en rechten. De startup heeft partnerschappen beveiligd met Openai, Meta en Anthropic, en zijn CEO, Brendan Foody, benadrukt in een TechCrunch -interview dat “weinigen begrijpen hoe groot de kans rond RL -omgevingen echt is.” De aanpak van Mercor omvat het maken van gespecialiseerde simulaties die niche -uitdagingen aanpakken, zoals navigeren door juridische databases of het analyseren van medische dossiers, waardoor de AI -acceptatie in gereguleerde industrieën mogelijk wordt versneld. Schaal AI, zodra de onbetwiste leider in databemering met een waardering van $ 29 miljard, heeft te maken gehad met recente tegenslagen. Meta’s investering van $ 14 miljard in een concurrerende onderneming en de stroperij van de voormalige CEO van Scale leidde tot verloren contracten met Google en Openai, naast interne concurrentie binnen meta. Desalniettemin past schaal aan door uit te breiden naar RL -omgevingen. Chetan Rane, het producthoofd van de schaal voor agenten en RL -omgevingen, merkte op: “Dit is gewoon de aard van het bedrijf [Scale AI] is in. Schaal heeft bewezen dat zijn vermogen om zich snel aan te passen. We hebben dit gedaan in de begindagen van autonome voertuigen, onze eerste business unit. Toen Chatgpt uitkwam, heeft schaal AI zich daaraan aangepast. En nu, nogmaals, we ons aanpassen aan nieuwe grensruimtes zoals agenten en omgevingen. “Deze pivot weerspiegelt de geschiedenis van heruitvinding van de schaal, van zelfrijdende auto’s tot de chatbotboom, het positioneren van het terugvorderen van relevantie in het agent-tijdperk. Temidden van deze consolidatie, een cohort van Nimble Startups. Ambitieuze visie om “alle banen te automatiseren” door te beginnen met RL-omgevingen voor AI-coderingsagenten. werkt al samen met antropisch over de RL-ontwikkeling, hoewel beide partijen weigerden commentaar te geven. en Menlo Ventures, de startup lanceerde vorige maand een RL-omgevingshub. Een deel van wat we doen is gewoon proberen een goede open-source infrastructuur eromheen te bouwen. De service die we verkopen is berekend, dus het is een handige ONRAMP voor het gebruik van GPU’s, maar we denken hier meer aan op de lange termijn. “Door GPU-toegang te vergemakkelijken, bevordert het door de gemeenschap aangedreven door de gemeenschap gedreven vooruitgang, maar ook in de groeiende behoefte aan schaalbare hardware-oplossingen in AI-training. Dominante kracht verwant aan hoe schaal de generatieve AI -golf heeft aangedreven. Startups in een recente podcast. Gevestigd uit investeringen in RL gecombineerd met testtijdrelatie, zoals de makers van O1 eerder deelden met TechCrunch, wedden op zijn schaalbaarheid met aanvullende gegevens en bronnen. Endeavour-Deze simulaties zouden aanhoudende vooruitgang kunnen stimuleren in de richting van AI-agenten voor algemene doeleinden. Hoe moeilijk is het om omgevingen te schalen. Zelfs de beste openbaar beschikbaar [RL environments] werkt meestal niet zonder serieuze wijziging. “Schalen vereist niet alleen meer omgevingen, maar ook verfijningen om dergelijke problemen te verzachten, om ervoor te zorgen dat simulaties trouw blijven aan echte toepassingen. Zelfs openbare benchmarks vereisen vaak uitgebreide tweaks, die de kloof benadrukken tussen prototype en productie-ready tools. Andrej Karpathy, terwijl een belegger in prime intellect en een advocaten en een advocaat voor rl zelf. Hij verklaarde: “Ik ben bullish over omgevingen en agentische interacties, maar ik ben specifiek bearish op het leren van versterking.”

  Leer de beste Darktide-lessen en maak de Emporer trots

Source: Schaal AI breidt zich uit naar RL -omgevingen voor AI -agenten

Related Posts

Hoe u uw Bosch vaatwasser kunt resetten als de knoppen niet reageren

Hoe u uw Bosch vaatwasser kunt resetten als de knoppen niet reageren

Hoe u eenvoudig uw AT&T-datagebruik kunt monitoren en overschrijdingen kunt voorkomen

Hoe u eenvoudig uw AT&T-datagebruik kunt monitoren en overschrijdingen kunt voorkomen

Wat het resetten van end-to-end-encryptie doet op iPhone, iPad of Mac

Wat het resetten van end-to-end-encryptie doet op iPhone, iPad of Mac

Hoe u de juiste resetmethode kiest voor Samsung Galaxy-apparaten

Hoe u de juiste resetmethode kiest voor Samsung Galaxy-apparaten

Hoe u uw Bosch vaatwasser kunt resetten als de knoppen niet reageren
Tech

Hoe u uw Bosch vaatwasser kunt resetten als de knoppen niet reageren

Hoe u eenvoudig uw AT&T-datagebruik kunt monitoren en overschrijdingen kunt voorkomen
Tech

Hoe u eenvoudig uw AT&T-datagebruik kunt monitoren en overschrijdingen kunt voorkomen

Wat het resetten van end-to-end-encryptie doet op iPhone, iPad of Mac
Tech

Wat het resetten van end-to-end-encryptie doet op iPhone, iPad of Mac

Hoe u de juiste resetmethode kiest voor Samsung Galaxy-apparaten
Tech

Hoe u de juiste resetmethode kiest voor Samsung Galaxy-apparaten

Google introduceert AI Inbox om Gmail-taken en updates te organiseren
Tech

Google introduceert AI Inbox om Gmail-taken en updates te organiseren

TechBriefly NL

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.