Microsoft-onderzoekers hebben een nieuwe architectuur genaamd Visual ChatGPT, dat tot doel heeft de sterke punten van natuurlijke taalverwerking en beeldgeneratie te combineren. De technologie vertegenwoordigt een belangrijke doorbraak voor tekst-naar-beeld-algoritmen, waardoor een meer organische en interactieve ervaring met kunstmatige intelligentie (AI) kan worden gecreëerd.
Deze baanbrekende technologie zou het gezicht kunnen veranderen van tekst-naar-beeld-modellen, die al lang worstelen met de taalcontext. In een paper waarin het relationele begrip van generatieve AI-modellen werd onderzocht, ontdekten onderzoekers dat deze modellen de fysieke relaties van bepaalde objecten niet ‘begrepen’. Visual ChatGPT zou deze beperking kunnen helpen overwinnen en mogelijk de weg vrijmaken voor toekomstige ontwikkelingen op het gebied van kunstmatige algemene intelligentie (AGI).
Je kan bekijk de paper van Microsoft over Visual ChatGPT via de link hier.
Hoe werkt Visual ChatGPT?
Hoe werkt Visual ChatGPT? In wezen integreert het de mogelijkheden van visuele basismodellen zoals Stable Diffusion, ControlNet en BLIP met het taalbegrip van ChatGPT. De “prompt manager” fungeert als interface tussen ChatGPT en de visuele modellenwaardoor de uitvoer naadloos kan worden verwerkt.
Deze integratie helpt de beperkingen van beide platforms te overwinnen, wat resulteert in een veel capabelere versie van ChatGPT die niet afhankelijk is van hallucinaties, maar gebruikmaakt van de mogelijkheden van VFM’s via de promptmanager.
Hier is een diagram over hoe Visual ChatGPT werkt:
Een van de belangrijkste voordelen van Visual ChatGPT is dat het mogelijk is om afbeeldingen te delen met ChatGPT. De promptmanager fungeert als een “keukenmanager” en geeft bestellingen en eten door tussen de “ober” (ChatGPT) en de “chefs” (VFM’s).
Het systeem bevat ook een redeneerformaat, waarmee ChatGPT kan beslissen wanneer het een tool zoals een VFM moet gebruiken om de benodigde output te leveren.
Hoe Visual ChatGPT te gebruiken?
Voordat u de Visual ChatGPT-demo uitvoert, moet u een paar stappen volgen zoals beschreven op de GitHub-pagina. Dit is wat u moet doen om Visual ChatGPT uit te voeren:
Visual ChatGPT is een handige tool die mogelijk de leercurve voor tekst-naar-beeld-modellen kan verminderen en AI-programma’s in staat stelt om met elkaar te communiceren. Eerdere modellen zoals LLM’s en T2I-modellen zijn geïsoleerd ontwikkeld, maar met innovatieve verbeteringen kunnen hun prestaties aanzienlijk worden verbeterd.
Er wordt veel uitgekeken naar de release van GPT-4, dat naar verwachting zal uitblinken in het produceren van afbeeldingen met ChatGPT. De releasedatum voor dit langverwachte model is momenteel echter onbekend.
Nieuwe banen AI is gecreëerd
Naarmate het gebied van snelle engineering zich blijft ontwikkelen, AI-fluisteraars zijn in opkomst als een kritieke nieuwe functiecategorie. Deze professionals werken eraan om AI-modellen te helpen de menselijke taal en context te ‘begrijpen’, waardoor een effectievere verwerking van natuurlijke taal mogelijk wordt.
De promptmanager in Visual ChatGPT vertegenwoordigt een belangrijke stap voorwaarts op dit gebied en vereenvoudigt het proces van het overbrengen van informatie naar het model zonder dat er complexe prompts nodig zijn. Daarom worden banen zoals prompt engineering steeds toegankelijker voor mensen die geïnteresseerd zijn in AI-technologieën.
Conclusie
Visual ChatGPT is een belangrijke ontwikkeling op het gebied van AI, met het potentieel om de mogelijkheden van state-of-the-art modellen te versterken. Door de sterke punten van LLM’s en T2I-modellen samen te brengen, heeft het de potentie om toetredingsdrempels te verminderen en interoperabiliteit toe te voegen aan verschillende AI-tools.
Terwijl er nog veel te leren valt over de mogelijkheden van Visual ChatGPT en vergelijkbare technologieën vertegenwoordigt het een opwindende nieuwe grens op het gebied van kunstmatige intelligentie.
Source: Visual ChatGPT is hier om de tekst-naar-beeldgeneratoren te ontwikkelen