De Google DreamBooth AI is hier. Nieuw uitgebrachte technologieën zoals OpenAI’s DALL-E 2 of StabilityAI’s Stable Diffusion en Midjourney veroveren het internet nu al stormenderhand. Het is nu tijd om de resultaten aan te passen. Maar hoe? Boston University en Google hebben de antwoorden geleverd en we hebben deze voor u gedetailleerd.
DreamBooth heeft het vermogen om het onderwerp van een afbeelding te herkennen, het uit zijn oorspronkelijke context te deconstrueren en het vervolgens nauwkeurig te synthetiseren in een nieuwe gewenste context. Bovendien kan het worden gebruikt met de huidige AI-beeldgeneratoren. Lees verder over AI-aangedreven verbeeldingskracht.
Google DreamBooth AI uitgelegd
Google heeft DreamBooth onthuld, een nieuw tekst-naar-beeld diffusiemodel. Google DreamBooth AI kan een breed scala aan afbeeldingen maken van het door een gebruiker gekozen onderwerp in verschillende omstandigheden met behulp van een tekstuele prompt als instructie.
DreamBooth, een revolutionaire methode voor het wijzigen van zwaar vooraf getrainde tekst-naar-beeld-modellen, is gemaakt door een onderzoeksteam van Boston University en Google. Over het algemeen is het idee vrij eenvoudig: ze willen het taalvisiewoordenboek uitbreiden zodat zeldzame token-ID’s worden gekoppeld aan een specifiek onderwerp dat de gebruiker wil maken.
Belangrijkste kenmerken van Google DreamBooth AI:
- Met 3-5 foto’s kan DreamBooth AI een tekst-naar-beeldmodel verbeteren.
- Met behulp van DreamBooth AI kunnen volledig originele fotorealistische afbeeldingen van het onderwerp worden geproduceerd.
- Bovendien is de DreamBooth AI in staat om afbeeldingen van een onderwerp vanuit verschillende perspectieven te produceren.
Het belangrijkste doel van het model is om gebruikers de tools te bieden die nodig zijn om fotorealistische representaties te maken van de instanties van hun gekozen onderwerp en deze te verbinden met het tekst-naar-beeld diffusiemodel. Als gevolg hiervan lijkt deze methode effectief te zijn voor het samenvatten van problemen in verschillende omstandigheden.
Google’s DreamBooth heeft een iets andere benadering dan andere onlangs uitgebrachte tekst-naar-beeld-tools zoals: DALL-E 2, Stabiele diffusieen Tussendoortje door gebruikers meer controle te geven over het onderwerpbeeld en vervolgens het diffusiemodel te regelen met behulp van op tekst gebaseerde invoer.
DreamBooth kan het onderwerp ook vanuit verschillende camerahoeken laten zien met slechts een paar invoerfoto’s. Kunstmatige intelligentie (AI) kan de kwaliteiten van het onderwerp voorzien en deze synthetiseren in tekstgestuurde navigatie, zelfs als de invoerfoto’s geen gegevens over het onderwerp geven vanuit verschillende gezichtspunten.
Dit model kan de foto’s ook synthetiseren om andere stemmingen, accessoires of kleurveranderingen te creëren met behulp van taalsignalen. Met deze functies biedt DreamBooth Google AI gebruikers nog meer personalisatie en creatieve vrijheid.
Het DreamBooth-artikel “DreamBooth: fijnafstemming van tekst-naar-beeld-diffusiemodellen voor subject-gedreven generatie” beweert dat ze een nieuwe kwestie en aanpak bieden:
- Onderwerpgestuurde generatie is een nieuwe kwestie.
Gegeven een paar haastig geschoten beelden van het onderwerp, is het doel om nieuwe representaties van het onderwerp in verschillende omgevingen te creëren met behoud van high-fidelity van de belangrijkste visuele kenmerken.
Toepassingen van de Google DreamBooth AI
De top Google DreamBooth AI-applicaties zijn als volgt:
- Recontextualisering
- Kunstuitvoeringen
- Manipulatie van expressies
- Nieuwe weergave synthese
- Accessorisatie
- Eigenschap wijziging
Ben je bereid om afscheid te nemen van PhotoShop? Laten we ze nader bekijken met behulp van de leerzame afbeeldingen gemaakt door Nataniel Ruiz en de DreamBooth-crew.
Recontextualisering
Door een zin met de unieke identifier en het klassenaamwoord aan het getrainde model toe te voegen, kan DreamBooth AI unieke afbeeldingen maken voor een bepaald onderwerp. In plaats van de achtergrond aan te passen, kan DreamBooth AI het onderwerp produceren in innovatieve, voorheen onzichtbare houdingen, articulaties en scènestructuur. realistische schaduwen en reflecties, evenals de interactie van het onderwerp met aangrenzende objecten. Dit toont aan dat hun strategie meer biedt dan alleen het extrapoleren of opvragen van relevante informatie.
Kunstuitvoeringen
Als je de optie krijgt om te kiezen tussen “een standbeeld van een” [V] [class noun] in de stijl van [great sculptor]” en “een schilderij van een [V] [class noun] in de stijl van [famous painter],” welke zou jij kiezen? Met behulp van DreamBooth AI kunnen originele creatieve representaties worden gemaakt.
Deze taak verschilt met name van stijloverdracht, waarbij de semantiek van de bronscène behouden blijft terwijl de stijl van een andere afbeelding op de originele scène wordt toegepast. Daarentegen kan de AI, afhankelijk van de creatieve stijl, grote scèneveranderingen bereiken met details van het onderwerp en identiteitsbehoud.
Manipulatie van expressies
Met behulp van de methode van Google DreamBooth AI kunnen nieuwe foto’s van het onderwerp worden gemaakt met andere gezichtsuitdrukkingen dan die in de originele set foto’s.
Nieuwe weergave synthese
Google DreamBooth AI kan het onderwerp vanuit een aantal unieke perspectieven weergeven. DreamBooth AI kan bijvoorbeeld nieuwe beelden van dezelfde kat produceren met verschillende camerahoeken, boordevol betrouwbare gedetailleerde vachtpatronen.
Ondanks dat het model slechts vier frontale foto’s van de kat heeft, kan DreamBooth AI informatie uit de klas afleiden voordat deze creatieve gezichtspunten worden gecreëerd, ook al heeft het dezelfde kat nog nooit van opzij, van onder of van boven gezien.
Accessorisatie
Het intrigerende aspect van het vermogen van DreamBooth AI om objecten te verfraaien, komt van de sterke compositie van het generatiemodel. Ter illustratie wordt het model gevraagd met een zin van de vorm “a [V] [class noun] dragen [accessory]”. Hierdoor is het voor ons mogelijk om diverse voorwerpen op een aansprekende manier aan de hond te bevestigen.
Eigenschap wijziging
DreamBooth AI kan de eigenschappen van de onderwerpinstantie wijzigen. Een bijvoeglijk naamwoord in kleur kan worden gebruikt in de voorbeeldzin “a [color adjective] [V] [class noun]”. Dit kan resulteren in nieuwe, levendige voorbeelden van het onderwerp. Er zijn een paar vereisten, maar deze kenmerken verklaren ook hoe u DreamBooth AI kunt gebruiken.
De Google DreamBooth AI gebruiken?
De DreamBooth AI-techniek neemt als invoer een klein aantal foto’s (meestal zijn 3-5 afbeeldingen voldoende) van een onderwerp (bijvoorbeeld een bepaalde hond) en de bijbehorende klasnaam (bijvoorbeeld ‘hond’). Het produceert vervolgens een tekst-naar-beeldmodel dat is aangepast en “gepersonaliseerd” en codeert voor een unieke identiteit voor het onderwerp. Om de onderwerpen in verschillende contexten te synthetiseren, kan DreamBooth AI vervolgens de onderscheidende identificatie bij gevolgtrekking in verschillende zinnen invoegen. Gegeven drie tot vijf afbeeldingen van het onderwerp, kunt u de diffusie van tekst naar afbeelding in twee stappen aanpassen:
- Een tekstprompt met een bepaalde code en de naam van de klas waartoe het onderwerp behoort (bijvoorbeeld “een afbeelding van een” [T] canine”) zal worden gebruikt om het tekst-naar-beeldmodel met lage resolutie te verbeteren. Bovendien gebruiken ze een klasse-specifiek verlies van voorafgaande bewaring, dat gebruikmaakt van de semantische prioriteit van het model voor de klasse en het aanmoedigt om een reeks voorbeelden te genereren die lid zijn van de klasse van het onderwerp door de klassenaam in de tekstprompt te plaatsen (bijvoorbeeld , “een foto van een hond”).
- We bereiken een grote getrouwheid door de superresolutiecomponenten af te stemmen met behulp van paren foto’s met lage en hoge resolutie uit onze invoerbeeldset.
De eerste Dreambooth is gemaakt met behulp van afbeelding‘s tekst-naar-beeld paradigma. Het model en de gewichten van Imagen zijn echter niet beschikbaar. Aan de hand van enkele voorbeelden stelt Dreambooth on Stable Diffusion gebruikers echter in staat om een tekst-naar-beeldmodel aan te passen.
Hoe Google Dreambooth AI gebruiken op stabiele diffusie?
Volg de volgende stappen om DreamBooth AI op stabiele diffusie te gebruiken:
- Volg de installatie-instructies in de Textual Inversion-repository of de originele Stable Diffusion-repository om uw LDM-omgeving in te stellen.
- Om een stabiel diffusiemodel te finetunen, moet u de vooraf getrainde stabiele diffusiemodellen ontvangen en hun instructies opvolgen. U kunt gewichten downloaden van KnuffelenGezicht.
- Bereid een reeks afbeeldingen voor voor regularisatie zoals vereist door de fine-tuningmethode van Dreambooth.
- U kunt oefenen door het volgende commando te gebruiken:
1 2 3 4 5 6 7 8 | python main.py --base configs/stable-diffusion/v1-finetune_unfrozen.yaml -t --actual_resume /path/to/original/stable-diffusion/sd-v1-4-full-ema.ckpt -n <job name> --gpus 0, --data_root /root/to/training/images --reg_data_root /root/to/regularization/images --class_word <xxx> |
Generatie
Na de training kan het commando worden gebruikt om gepersonaliseerde voorbeelden te krijgen.
1 2 3 4 5 6 7 | python scripts/stable_txt2img.py --ddim_eta 0.0 --n_samples 8 --n_iter 1 --scale 10.0 --ddim_steps 100 --ckpt /path/to/saved/checkpoint/from/training --prompt "photo of a sks <class>" |
In het bijzonder is class> het klassewoord – klassewoord voor training – en sks is de identifier (die, als je deze wilt wijzigen, moet worden vervangen door jouw keuze). Ga voor meer informatie naar de GitHub-pagina voor DreamBooth Stable Diffusion.
Beperkingen van de Dreambooth AI
De beperkingen van DreamBooth AI zijn als volgt:
- Taalafwijking
- Overfitting
- behoud verlies
Laten we ze nader onderzoeken.
Taalafwijking
Het produceren van iteraties in het onderwerp met een hoge mate van detail wordt gehinderd door de opdrachtprompt. DreamBooth kan de context van het onderwerp wijzigen, maar er zijn problemen met het frame als het model het eigenlijke onderwerp wil veranderen.
Overfitting
Een ander probleem is wanneer de uitvoerafbeelding te veel op de originele afbeelding wordt geplaatst. Het onderwerp wordt mogelijk niet beoordeeld of wordt mogelijk gecombineerd met de context van de geüploade afbeeldingen als er niet genoeg invoerfoto’s zijn. Dit gebeurt ook wanneer een context voor een oneven generatie wordt gevraagd.
behoud verlies
Het onvermogen om afbeeldingen van zeldzamere of complexere onderwerpen te synthetiseren, evenals variabele trouw aan het onderwerp, wat kan resulteren in hallucinogene verschuivingen en discontinue eigenschappen, zijn verdere beperkingen. De invoercontext wordt vaak meegenomen in het onderwerp van de invoerafbeeldingen.
Maatschappelijke impact van de AI
Het doel van het DreamBooth-project is om gebruikers een praktisch hulpmiddel te bieden voor het synthetiseren van persoonlijke onderwerpen (dieren, objecten) in verschillende omgevingen. Hoewel standaard tekst-naar-beeld-algoritmen vooringenomen kunnen zijn in de richting van specifieke aspecten bij het synthetiseren van afbeeldingen uit woorden, helpt het de gebruiker om de door hem gekozen onderwerpen beter na te bootsen. Kwaadwillenden kunnen echter proberen gebruikers te misleiden door soortgelijke afbeeldingen te gebruiken. Verschillende generatieve modelmethoden of technieken voor het wijzigen van inhoud vertonen dit alomtegenwoordige probleem.
Conclusie
De meeste tekst-naar-afbeelding-modellen hebben miljoenen parameters en bibliotheken nodig om uitvoer te maken van een enkele tekstinvoer. DreamBooth maakt het voor gebruikers gemakkelijker om inhoud te verkrijgen en te gebruiken door simpelweg de invoer van drie tot vijf onderwerpafbeeldingen samen met een geschreven achtergrond nodig te hebben.
De onderscheidende kwaliteiten van het onderwerp kunnen daarom behouden blijven terwijl het getrainde model de materialistische aspecten van het onderwerp die uit de afbeeldingen zijn geleerd hergebruikt om ze in andere instellingen en gezichtspunten te repliceren. De meeste algoritmen voor conversie van tekst naar afbeelding zijn afhankelijk van bepaalde trefwoorden en kunnen prioriteit geven aan specifieke kenmerken bij het weergeven van afbeeldingen. Gebruikers van DreamBooth kunnen fotorealistische resultaten produceren door hun gekozen persoon in een unieke omgeving of scenario te zien. Dus stop nu met wachten. Probeer het nu!
We hopen dat je genoten hebt van dit artikel over het gebruik van Google Dreambooth AI op stabiele diffusie. Als je dat deed, zullen we zeker ook genieten van het lezen van enkele van onze andere artikelen, zoals DALL-E 2 heeft outpainting geïntroduceerd: AI verbeeldt zich over de grenzen heen, of Stable Diffusion AI art generator: prompts, voorbeelden en hoe te lopen.
Source: Hoe Google Dreambooth AI gebruiken op stabiele diffusie?