Microsoft heeft MAI-Image-1 aangekondigd, het eerste model voor het genereren van afbeeldingen dat volledig intern is ontwikkeld. Het bedrijf verklaarde dat het model “zeer binnenkort” beschikbaar zal zijn op Copilot en Bing Image Creator en momenteel beschikbaar is om te testen op LMArena, een platform waar gebruikers twee anonieme chatbots evalueren en stemmen op de beste reactie.
Op het tekst-naar-beeld-klassement van LMArena stond MAI-Image-1 op de negende plaats, met een score van 1.096 punten. Ter vergelijking: Google’s Gemini-2.5-Flash, ook bekend als Nano-Banana, scoorde 1.154 punten en staat op de tweede plaats, terwijl het model van OpenAI 1.123 punten scoorde op de zevende plaats. Het klassement wordt aangevoerd door Hunyuan-image-3.0, een model ontwikkeld door het Chinese technologiebedrijf Hunyuan.
Microsoft verklaarde dat zijn ontwikkelingsteam zich concentreerde op het vermijden van repetitieve of algemeen gestileerde uitvoer met MAI-Image-1. “We hebben bijvoorbeeld prioriteit gegeven aan rigoureuze dataselectie en genuanceerde evaluatie, gericht op taken die een goede weerspiegeling zijn van creatieve gebruiksscenario’s uit de echte wereld”, legt het bedrijf uit, eraan toevoegend dat het feedback van professionals in de creatieve industrie verwerkte.
Het model zou uitblinken in het genereren van landschappen en fotorealistische beelden. De prestaties staan bekend om het nauwkeurig vastleggen van details zoals belichting, schaduwen en reflecties, vooral in vergelijking met “veel grotere, langzamere modellen.”
Naast MAI-Image-1 heeft Microsoft andere interne modellen ontwikkeld, waaronder MAI-Voice-1 voor het genereren van natuurlijke spraak en de Phi-serie van kleine taalmodellen die zijn ontworpen voor efficiënte redeneringstaken. Deze interne ontwikkeling vindt plaats naast de voortdurende financiële en infrastructurele steun van het bedrijf voor OpenAI.
Het gebied van AI-beeldgeneratie beleeft momenteel een periode van hoge activiteit. Het model van OpenAI kreeg onlangs virale aandacht vanwege zijn vermogen om de kunststijl van Studio Ghibli te imiteren, terwijl Google’s “Nano-Banana” werd erkend vanwege zijn geavanceerde bewerkingsmogelijkheden.
Met behulp van LMArena heeft AIM een vergelijking uitgevoerd tussen Microsoft’s MAI-Image-1, Google’s Gemini-2.5-Flash en OpenAI’s GPT-image-1. De modellen werden getest met een prompt van twee mensen in een café bij een raam in de late namiddag. De evaluatie concentreerde zich op de manier waarop elk model omging met gemengd licht, reflecties en het realisme van schaduwen. Gebruikers kunnen LMArena bezoeken om deze modellen met soortgelijke aanwijzingen te testen.







