In het bekende bordspel Diplomacy was Meta Cicero AI in staat om op een niveau te presteren dat vergelijkbaar is met dat van een mens. Het maakt gebruik van een vergelijkbaar model als GPT-3.
Meta AI onthulde dinsdag de creatie van Cicero, waarvan wordt beweerd dat het de eerste AI is die op menselijk niveau presteert in het strategische bordspel Diplomacy. Het is een opmerkelijke prestatie, gezien het feit dat het spel sterke interpersoonlijke onderhandelingsvaardigheden vereist en dat Cicero een bepaald niveau van taalvaardigheid moet hebben om te zegevieren.
Bordspellen hebben lang gediend als een effectieve maatstaf voor de ontwikkeling van AI, zelfs vóór de overwinning van Deep Blue op Garry Kasparov in 1997 bij het schaken. Toen AlphaGo in 2015 Go-meester Lee Sedol versloeg, werd er nog een barrière doorbroken. Beide spellen houden zich aan een reeks analytische regels die redelijk expliciet zijn (de regels van Go zijn over het algemeen echter aangepast voor computer-AI).
Meta Cicero AI benadert een prestatie op menselijk niveau in een bordspel genaamd Diplomacy
Een belangrijk onderdeel van de gameplay in Diplomacy vereist echter sociale vaardigheden. Om te slagen, moeten spelers empathie tonen, natuurlijk spreken en relaties ontwikkelen – een uitdagende prestatie voor een computerspeler. In het licht hiervan stelde Meta de vraag: “Kunnen we effectievere en flexibelere agenten bouwen die taal kunnen gebruiken om te onderhandelen, te overtuigen en met mensen samen te werken om strategische doelen te bereiken, vergelijkbaar met de manier waarop mensen dat doen?”
Het antwoord is volgens Meta ja. Meta Cicero AI ontwikkelde zijn vaardigheden door een online spelletje diplomatie te spelen webdiplomatie.net. Het behaalde in de loop van de tijd “meer dan het dubbele van de gemiddelde score” van menselijke spelers en eindigde uiteindelijk in de top 10% van spelers in meerdere games, wat bewees dat het het spel onder de knie had.
Meta AI Cicero is ontwikkeld met behulp van methoden voor strategisch redeneren (vergelijkbaar met AlphaGo) en natuurlijke taalverwerking (vergelijkbaar met GPT-3). Cicero doet voorspellingen over het gedrag van andere spelers tijdens elk spel door de toestand van het speelbord en de geschiedenis van de dialoog te observeren. Het creëert een strategie die het in praktijk brengt met behulp van een taalmodel dat een dialoog kan produceren die menselijk klinkt, waardoor het in staat wordt gesteld om met andere deelnemers samen te werken.
De kern van Cicero’s persoonlijkheid is te vinden in zijn natuurlijke taalvaardigheden, waarnaar Meta verwijst als een ‘beheersbaar dialoogmodel’. Cicero gebruikt een enorm corpus van web-geschraapte tekst, vergelijkbaar met GPT-3.
“Om een controleerbaar dialoogmodel te bouwen, zijn we begonnen met een BART-achtig taalmodel met 2,7 miljard parameters, vooraf getraind op tekst van internet en verfijnd op meer dan 40.000 menselijke spellen op webDiplomacy.net,” vermeld Meta.
Het uiteindelijke model begreep de nuances van een uitdagend spel. Volgens Meta kan Cicero “bijvoorbeeld afleiden dat het later in het spel de steun van een bepaalde speler nodig heeft”, zegt Meta, “en vervolgens een strategie bedenken om de gunst van die persoon te winnen – en zelfs de risico’s en kansen herkennen dat die speler vanuit zijn eigen gezichtspunt ziet.”
Onder de titel “Spelen op menselijk niveau in het spel van diplomatie door taalmodellen te combineren met strategisch redeneren”, werd de studie van Meta Cicero AI gepubliceerd in het tijdschrift Wetenschap.
In termen van bredere toepassingen beweert Meta dat haar Cicero-studie “communicatiebarrières tussen mensen en AI zou kunnen verminderen”, bijvoorbeeld door een langdurige discussie te onderhouden om iemand een nieuwe vaardigheid te leren. Of het kan de drijvende kracht zijn achter een videogame waarin NPC’s kunnen converseren als mensen, de intenties van de speler oppikken en gaandeweg veranderen.
Tegelijkertijd kan deze technologie worden gebruikt om mensen te manipuleren door zich voor te doen als mensen en ze op potentieel gevaarlijke manieren te misleiden, afhankelijk van de context. In die zin hoopt Meta dat andere onderzoekers “op een verantwoorde manier” op zijn code kunnen voortbouwen en zegt dat het stappen heeft ondernomen om “giftige berichten in dit nieuwe domein” te detecteren en te verwijderen, wat waarschijnlijk verwijst naar de dialoog die Meta Cicero AI van internet heeft geleerd sms’jes die het heeft ingenomen—altijd een risico voor grote taalmodellen.
Het bedrijf leverde een gedetailleerde website om uit te leggen hoe Meta Cicero AI werkt en heeft ook Cicero’s code open source gemaakt op GitHub. Online Diplomatie fans – en misschien zelfs de rest van ons – moeten misschien oppassen.
Desalniettemin kan deze technologie, afhankelijk van de situatie, worden gebruikt om individuen te misleiden en te manipuleren door middel van imitatie. Vermoedelijk verwijzend naar de dialoog die Cicero oppikte van de internetteksten die het inslikte – altijd een risico voor grote taalmodellen – zegt Meta dat het stappen heeft ondernomen om “giftige berichten in dit nieuwe domein” te detecteren en te verwijderen en dat het hoopt dat andere onderzoekers zullen voortbouwen op haar code “op een verantwoorde manier”.
Naast het plaatsen van de broncode voor Meta Cicero AI op GitHubhet bedrijf onderhoudt een uitgebreide website uitleggen hoe het werkt. Fans van online diplomatie moeten op hun hoede zijn, net als de rest van ons.
Hoe speel ik webDiplomacy?
Het doel van diplomatie is om het eerste land te zijn dat de helft van de bevoorradingscentra in het spel controleert. Je kunt dit doen door je troepen over het bord te verplaatsen en gevechten aan te gaan met andere spelers om de controle over hun bevoorradingscentra te grijpen. Aan het einde van het jaar mag je voor elk bevoorradingscentrum dat je beheert een nieuwe eenheid bouwen die je kunt gebruiken om meer bevoorradingscentra over te nemen en je zaak naar de overwinning te leiden. Je moet een eenheid ontbinden in plaats van een bevoorradingscentrum aan een andere speler te verliezen, waardoor je met minder eenheden overblijft om te strijden om meer bevoorradingscentra.
- Voor meer details kunt u terecht webDiplomacy’s eigen website.
Source: Meta Cicero AI behaalt prestaties op menselijk niveau in het bordspel Diplomacy