Apple heeft een belangrijke doorbraak bereikt op het gebied van kunstmatige intelligentie met de introductie van Apple MGIE, een revolutionair open-source AI-model waarmee gebruikers afbeeldingen kunnen bewerken via instructies in natuurlijke taal. MGIE, een afkorting van MLLM-Guided Image Editing, maakt gebruik van de kracht van multimodale grote taalmodellen (MLLM’s) om gebruikersopdrachten te interpreteren en manipulaties op pixelniveau uit te voeren met opmerkelijke nauwkeurigheid.
Het model beschikt over een uitgebreid scala aan bewerkingsmogelijkheden, waaronder aanpassingen in Photoshop-stijl, algemene foto-optimalisatie en lokale bewerking. Dit betekent dat gebruikers hun afbeeldingen eenvoudig kunnen verbeteren met een eenvoudige tekstopdracht, waardoor ze bewerkingen van professionele kwaliteit kunnen maken zonder dat ze uitgebreide kennis van fotobewerking nodig hebben.
De ontwikkeling van MGIE is het resultaat van een baanbrekende samenwerking tussen Apple en een team van onderzoekers van de Universiteit van Californië, Santa Barbara. Het model was gepresenteerd in een onderzoekspaper geaccepteerd op de prestigieuze International Conference on Learning Representations (ICLR) 2024, een vooraanstaand platform voor AI-onderzoek. Het artikel toont de indrukwekkende effectiviteit van MGIE bij het verbeteren van automatische meetgegevens en menselijke evaluatie, terwijl de efficiëntie van de concurrentie-inferentie behouden blijft.
Wat is Apple MGIE?
Apple MGIE is een revolutionair beeldbewerkingssysteem dat gebruikmaakt van machinaal leren, zodat gebruikers afbeeldingen kunnen bewerken met behulp van instructies in natuurlijke taal. Met deze innovatieve technologie kunnen gebruikers eenvoudig de gewenste wijzigingen in de afbeelding beschrijven, en MGIE zal de wijzigingen automatisch toepassen, waardoor de noodzaak voor complexe bewerkingstools of menu’s wordt geëlimineerd.
Net als andere geavanceerde AI-beeldtools zoals Midjourney, StableDiffusion en DALL-E, overbrugt Apple MGIE de kloof tussen menselijke intentie en beeldmanipulatie. Door gebruik te maken van de kracht van multimodaal leren kan MGIE zowel visuele informatie (de afbeelding zelf) als tekstuele informatie (gebruikersinstructies) begrijpen, waardoor manipulaties op pixelniveau met opmerkelijke nauwkeurigheid kunnen worden uitgevoerd.
Apple MGIE is een gamechanger op het gebied van beeldbewerking en biedt een gebruiksvriendelijke en efficiënte manier om afbeeldingen te verbeteren en te manipuleren. Of u nu een professionele fotograaf, grafisch ontwerper of social media-beïnvloeder bent, MGIE kan u helpen verbluffende afbeeldingen te maken die een blijvende indruk op uw publiek achterlaten.
Hoe werkt Apple MGIE?
Apple MGIE maakt gebruik van natuurlijke taalverwerking en machinaal leren, zodat gebruikers afbeeldingen kunnen bewerken met eenvoudige, beschrijvende opdrachten. Het systeem werkt door de intentie van de gebruiker te begrijpen en vervolgens het beeld te manipuleren om de gewenste veranderingen nauwkeurig weer te geven.
Hier is een overzicht van de MGIE-workflow:
- Commando’s invoeren: De gebruiker beschrijft de gewenste bewerkingen in gewoon Engels, zoals “Maak de lucht in deze afbeelding blauwer” of “Verwijder de rode auto van deze foto”
- Intentie begrijpen: Het geavanceerde taalmodel van MGIE ontcijfert de instructies van de gebruiker en identificeert de specifieke objecten, attributen en gewenste wijzigingen
- Visueel begrip: Tegelijkertijd analyseert MGIE het beeld en identificeert de belangrijkste elementen en hun relaties
- Begeleid bewerken: Door zowel taalkundig als visueel inzicht te combineren, manipuleert MGIE op intelligente wijze het beeld om de opdrachten van de gebruiker nauwkeurig weer te geven. Het volgt niet blindelings instructies, maar kan de context interpreteren en verstandige aanpassingen maken
Het kernconcept achter MGIE is het overbruggen van de kloof tussen menselijke intentie en beeldmanipulatie, waardoor beeldbewerking voor iedereen toegankelijker en efficiënter wordt. Met MGIE kunnen gebruikers afbeeldingen eenvoudig verbeteren en manipuleren met behulp van eenvoudige, natuurlijke taalopdrachten, waardoor nieuwe mogelijkheden voor creatieve expressie en communicatie worden geopend.
Hoe Apple MGIE te gebruiken
Om MGIE te gebruiken, hebben gebruikers toegang tot het open-sourceproject op GitHub, dat volledige toegang biedt tot de broncode, trainingsgegevens en vooraf getrainde modellen. Hierdoor kunnen ontwikkelaars en onderzoekers de innerlijke werking ervan begrijpen en mogelijk verbeteringen bijdragen. Bovendien is een demo-notebook is beschikbaar op GitHub, waarbij gebruikers door verschillende bewerkingstaken worden geleid met behulp van instructies in natuurlijke taal. Dit dient als een praktische introductie tot de mogelijkheden van MGIE.
Voor een snelle en gemakkelijke manier om MGIE uit te proberen, kunnen gebruikers ook met het systeem experimenteren via een webdemo gehost op Hugging Face Spaces. Met dit online platform kunnen gebruikers het systeem ervaren zonder dat lokale installatie nodig is.
MGIE verwelkomt gebruikersfeedback en maakt het verfijnen van bewerkingen of het aanvragen van verschillende wijzigingen mogelijk. Deze iteratieve aanpak zorgt ervoor dat de gegenereerde bewerkingen aansluiten bij de artistieke visie van de gebruiker.
Hoewel MGIE nog in ontwikkeling is, maakt het project door open source het toegankelijk voor een breed scala aan gebruikers en bijdragers. Voortdurend onderzoek en gebruikersbijdragen zullen de toekomstige mogelijkheden en potentiële toepassingen vormgeven, waardoor het een opwindende en snel evoluerende technologie op het gebied van beeldbewerking wordt.
Uitgelicht beeldtegoed: pvproducties/Freepik.
Source: Apple MGIE markeert de stille intrede van de technologiegigant in de AI-sector