Meta-AI’s release van de Video Joint Embedding Predictive Architecture (V-JEPA) is een doorbraak in de ontwikkeling van kunstmatige intelligentie en misschien wel in de hele toekomst.
Vandaag zou inderdaad een keerpunt voor AI kunnen zijn. Na Google’s aankondiging van Gemini 1.5 Pro en OpenAI’s Sora heeft een andere technologiegigant een bom laten vallen.
Geïnspireerd door het baanbrekende werk van Yann LeCun, maakt V-JEPA een gedurfde sprong in de richting van machines die de wereld om hen heen kunnen leren en begrijpen met een mensachtige intuïtiviteit.
Hoe weerspiegelt Meta V-JEPA het menselijk leren?
Net zoals een baby leert door observatie en passief beelden en geluiden in zich opneemt om patronen en relaties te ontcijferen, absorbeert V-JEPA informatie uit video’s. In plaats van zich echter te concentreren op individuele pixels, gebruikt het geavanceerde algoritmen om video’s op een hoger, conceptueel niveau te analyseren. Het probeert de relaties tussen objecten, de stroom van gebeurtenissen en de onderliggende regels voor fysieke interacties te begrijpen.
Wat V-JEPA zo uniek maakt, is het voorspellende karakter ervan. Het model wordt getraind door video’s te zien met zorgvuldig gemaskeerde secties. De taak van het nieuwe model is niet alleen om de ontbrekende visuele informatie te voorspellen, maar ook om de abstracte concepten af te leiden van wat er binnen de scène gebeurt. Dit dwingt het model om een sterke interne representatie te ontwikkelen van een virtueel model van de wereld die het waarneemt.
Vandaag brengen we V-JEPA uit, een methode om machines te leren de fysieke wereld te begrijpen en te modelleren door naar video’s te kijken. Dit werk is een nieuwe belangrijke stap in de richting @ylecun‘s geschetste visie op AI-modellen die een aangeleerd begrip van de wereld gebruiken om te plannen, redeneren en… pic.twitter.com/5i6uNeFwJp
— AI bij Meta (@AIatMeta) 15 februari 2024
Efficiëntie en aanpassingsvermogen staan gelijk aan innovatie
De belangrijkste innovaties van V-JEPA liggen in de manier waarop het leert en hoe het zijn kennis toepast:
- Zelfgestuurd leren: Kan worden getraind op enorme hoeveelheden ongelabelde videogegevens. Er zijn geen handgemaakte voorbeelden nodig, waardoor de kosten en tijd die nodig zijn om indrukwekkende resultaten te bereiken, worden verminderd
- Selectieve voorspelling: Ontworpen om minder relevante details te negeren en zich te concentreren op het grote geheel, wat leidt tot opmerkelijke efficiëntie vergeleken met traditionele AI-modellen
- Opmerkelijk aanpassingsvermogen: Na de initiële training kan het snel worden verfijnd op een kleine hoeveelheid gelabelde gegevens om specifieke taken aan te pakken. Dit opent de deur naar zeer flexibele AI-systemen die voortdurend kunnen leren en verbeteren
Het nieuwe model blinkt uit in zijn vermogen om een ingewikkeld begrip van complexe visuele gebeurtenissen te ontwikkelen. V-JEPA kan ingewikkelde interacties tussen meerdere objecten ontleden, zelfs wanneer acties subtiel zijn of over langere perioden plaatsvinden. Dit kan van cruciaal belang zijn voor taken als gedetailleerde videoanalyse of robotmanipulatie.
Door te begrijpen wat er in een scène gebeurt, bouwt V-JEPA een krachtige kennisbasis op voor het oplossen van problemen in de echte wereld. Dit contextuele bewustzijn zou een revolutie teweeg kunnen brengen in ondersteunende technologieën en AI-agenten.
Wie is Yann LeCun?
Yann LeCun is een gigant in de wereld van computerwetenschappen en kunstmatige intelligentie. Hij wordt algemeen erkend als een van de grondleggers van deep learning, vooral vanwege zijn baanbrekende werk op het gebied van convolutionele neurale netwerken (CNN’s). CNN’s hebben de manier waarop machines de wereld zien compleet veranderd, waardoor grote vooruitgang is geboekt op het gebied van computervisie, beeldherkenning en talloze toepassingen zoals zelfrijdende auto’s en medische diagnostiek. De invloed van LeCun reikt verder dan deep learning en geeft vorm aan bredere benaderingen van machinaal leren met zijn lopende onderzoek op gebieden als versterkend leren en leren zonder toezicht.
Momenteel bekleedt LeCun de prestigieuze rol van Vice President en Chief AI Scientist bij Meta (voorheen Facebook). Daar begeleidt hij een team van top-AI-onderzoekers die de volgende technologische grenzen voor Meta’s producten en diensten verkennen. De academische wortels van LeCun blijven sterk, aangezien hij ook werkzaam is als Silver Professor aan de New York University. In deze rol begeleidt en inspireert hij de volgende generatie AI-vernieuwers.
De opmerkelijke bijdragen van LeCun aan het veld bleven niet onopgemerkt. In 2018 deelde hij de ACM AM Turing Award met Geoffrey Hinton en Yoshua Bengio. Deze prijs, vaak de “Nobelprijs voor computergebruik” genoemd, is de hoogste onderscheiding in de computerwetenschappen en weerspiegelt de transformatieve impact van hun diepgaande leeronderzoek.
Uitgelicht beeldtegoed: Meta.
Source: Meta introduceert V-JEPA: organische oplossing voor kunstmatige intelligentie