- Google Research en Everyday Robots, eigendom van Alphabet, combineren wat ze ‘SayCan’ noemen (taalmodellen met een echte basis in vooraf getrainde vaardigheden) met PaLM, of Pathways Language Model.
- Google-onderzoekers leggen uit hoe ze de planningsmogelijkheden van de robot organiseren om een van zijn ‘vaardigheden’ te kiezen op basis van een instructie op hoog niveau van een mens, en vervolgens analyseren hoe waarschijnlijk het is dat elke mogelijke vaardigheid de instructie in hun paper ‘Do As I Can’ zal voltooien. , niet zoals ik zeg.’
Google Research en eigendom van Alphabet Dagelijkse Robots integreer SayCan (taalmodellen met een echte basis in vooraf getrainde vaardigheden) en PaLM, of Pathways Taalmodel, het grootste taalmodel. Onderzoekers van Everyday Robots gebruiken grootschalige taalmodellen om robots te helpen bij het voorkomen van een verkeerde interpretatie van menselijke communicatie die kan leiden tot ongepaste of zelfs gevaarlijke acties.
Deze combinatie, bekend als PaLM-SayCandemonstreert een manier om de communicatie tussen mens en robot te vereenvoudigen en de prestaties van robottaken te verbeteren.
Vincent Vanhoucke, vooraanstaand wetenschapper en hoofd robotica bij Google Research, legt uit: “PaLM kan het robotsysteem helpen complexere, open vragen te verwerken en hierop te reageren op manieren die redelijk en verstandig zijn.”
Grote taalmodellen zoals GPT-3 van OpenAI kunnen simuleren hoe mensen taal gebruiken en programmeurs helpen met suggesties voor het automatisch aanvullen van codes zoals GitHub’s Copilot, maar deze vertalen zich niet naar de fysieke wereld waarin robots ooit in een huiselijke omgeving kunnen opereren.
Wat de robotica betreft, zijn fabrieksrobots tegenwoordig star geprogrammeerd. Het onderzoek van Google laat zien hoe mensen op een dag natuurlijke taal kunnen gebruiken om een robot een vraag te stellen waarbij de robot de context van de vraag moet begrijpen en vervolgens de juiste actie moet ondernemen in een bepaalde omgeving.
Bijvoorbeeld de huidige GPT-3-reactie op “Ik heb mijn drankje gemorst, kunt u helpen?” is “Je zou kunnen proberen een stofzuiger te gebruiken.” Dat is potentieel gevaarlijk gedrag. LaMDA, de op gesprekken of dialogen gebaseerde AI van Google, reageert: “Wil je dat ik een schoonmaker vind?” terwijl FLAN antwoordt: “Het spijt me, het was niet mijn bedoeling om het te morsen.”
Het team van Google Research en Everyday Robots testte de PALM-SayCan-methode in een keukenomgeving met behulp van een robot.
Hun strategie omvatte het ‘aarden’ van PaLM in de context van een robot die commando’s op hoog niveau van een mens ontvangt, waarbij de robot moet bepalen welke acties nuttig zijn en waartoe hij in staat is in die omgeving.
Nu, wanneer een Google-onderzoeker zegt: “Ik heb mijn drankje gemorst, kun je helpen?” de robot reageert met een spons en probeert het lege blikje in de juiste prullenbak te plaatsen. Aanvullende training kan het leren opruimen van de lekkage omvatten.
Vanhoucke beschrijft de werking van het gronden van het taalmodel in PaLM-SayCan.
“PaLM suggereert mogelijke benaderingen van een taak op basis van taalbegrip, en robotmodellen doen hetzelfde op basis van een reeks vaardigheden die technisch haalbaar is. Het gecombineerde systeem verwijst vervolgens naar de twee om effectievere en realiseerbare robotstrategieën te identificeren.”
Deze strategie bevordert niet alleen de communicatie tussen mens en robot, maar verbetert ook de prestaties en het vermogen van de robot om taken te plannen en uit te voeren.
In hun paper getiteld ‘Do As I Can, Not As I Say’ beschrijven Google-onderzoekers hoe ze de planningsmogelijkheden van een robot structureren om een van zijn ‘vaardigheden’ te identificeren op basis van een instructie op hoog niveau van een mens, en vervolgens de waarschijnlijkheid beoordelen van elke mogelijke vaardigheid om de instructie te vervullen.
“In de praktijk structureren we de planning als een dialoog tussen een gebruiker en een robot, waarbij een gebruiker de instructie op hoog niveau geeft, bijvoorbeeld ‘Hoe zou je me een colablikje brengen?’ en het taalmodel reageert met een expliciete volgorde, bijvoorbeeld ‘Ik zou: 1. Zoek een colablikje, 2. Pak het colablikje op, 3. Breng het naar je toe, 4. Klaar’.”
“SayCan, gegeven een instructie op hoog niveau, selecteert de uit te voeren vaardigheid door waarschijnlijkheden uit een taalmodel te combineren (die de waarschijnlijkheid vertegenwoordigen dat een vaardigheid nuttig is voor de instructie) en kansen van een waardefunctie (die de waarschijnlijkheid vertegenwoordigen van het succesvol uitvoeren van de vaardigheid ). Dit straalt een haalbare en bruikbare vaardigheid uit. Het proces herhalen door de geselecteerde vaardigheid toe te voegen aan de reactie van de robot en de modellen te bevragen totdat de uitvoerstap is afgerond.”
Source: Google gaat AI-taalmodellen gebruiken voor het maken van thuishulprobots







