stub EasyPhoto: Din personlige AI-fotogenerator - Unite.AI
Følg os

Kunstig intelligens

EasyPhoto: Din personlige AI-fotogenerator

mm
Opdateret on
EasyPhoto : Din personlige AI-portrætgenerator

Stabil diffusion Webbrugergrænseflade, eller SD-WebUI, er et omfattende projekt for stabile diffusionsmodeller, der bruger Gradio-biblioteket til at levere en browsergrænseflade. I dag skal vi tale om EasyPhoto, et innovativt WebUI-plugin, der gør det muligt for slutbrugere at generere AI-portrætter og billeder. EasyPhoto WebUI-plugin'et skaber AI-portrætter ved hjælp af forskellige skabeloner, der understøtter forskellige fotostilarter og flere modifikationer. Derudover kan brugere, for at forbedre EasyPhotos muligheder yderligere, generere billeder ved hjælp af SDXL-modellen for mere tilfredsstillende, nøjagtige og forskellige resultater. Lad os begynde.

En introduktion til EasyPhoto og stabil diffusion

Den stabile diffusionsramme er en populær og robust diffusionsbaseret generationsramme, der bruges af udviklere til at generere realistiske billeder baseret på inputtekstbeskrivelser. Takket være sine muligheder kan den stabile diffusionsramme prale af en bred vifte af applikationer, herunder billedovermaling, billedindmaling og billed-til-billede oversættelse. Stable Diffusion Web UI, eller SD-WebUI, skiller sig ud som en af ​​de mest populære og velkendte applikationer i denne ramme. Den har en browsergrænseflade bygget på Gradio-biblioteket, der giver en interaktiv og brugervenlig grænseflade til stabile diffusionsmodeller. For yderligere at forbedre kontrol og anvendelighed i billedgenerering, integrerer SD-WebUI adskillige stabile diffusionsapplikationer.

På grund af den bekvemmelighed, som SD-WebUI-rammeværket tilbyder, besluttede udviklerne af EasyPhoto-rammeværket at oprette det som et webplugin i stedet for en fuldgyldig applikation. I modsætning til eksisterende metoder, der ofte lider af identitetstab eller introducerer urealistiske funktioner i billeder, udnytter EasyPhoto-rammeværket billed-til-billede-kapaciteten i de stabile diffusionsmodeller til at producere nøjagtige og realistiske billeder. Brugere kan nemt installere EasyPhoto-rammeværket som en udvidelse i WebUI, hvilket forbedrer brugervenlighed og tilgængelighed for en bredere vifte af brugere. EasyPhoto-rammen giver brugerne mulighed for at generere identitetsstyret, høj kvalitet og realistiske AI-portrætter der ligner input-identiteten.

For det første beder EasyPhoto-rammen brugerne om at skabe deres digitale dobbeltgænger ved at uploade et par billeder for at træne en ansigts-LoRA- eller Low-Rank Adaptation-model online. LoRA-rammen finjusterer hurtigt diffusionsmodellerne ved at gøre brug af lav-rangs tilpasningsteknologi. Denne proces gør det muligt for den baserede model at forstå ID-oplysningerne for specifikke brugere. De trænede modeller fusioneres derefter og integreres i baseline-modellen for stabil diffusion for interferens. Desuden bruger modellen under interferensprocessen stabile diffusionsmodeller i et forsøg på at male ansigtsområderne i interferensskabelonen, og ligheden mellem input- og outputbillederne verificeres ved hjælp af de forskellige ControlNet-enheder. 

EasyPhoto-rammen implementerer også en diffusionsproces i to trin for at tackle potentielle problemer som grænseartefakter og identitetstab, hvilket sikrer, at de genererede billeder minimerer visuelle uoverensstemmelser, samtidig med at brugerens identitet bevares. Ydermere er interferenspipelinen i EasyPhoto frameworket ikke kun begrænset til at generere portrætter, men den kan også bruges til at generere alt, der er relateret til brugerens ID. Dette indebærer, at når du først træner LoRA model for et bestemt ID kan du generere en bred vifte af AI-billeder, og det kan derfor have udbredte applikationer, herunder virtuelle prøveversioner. 

For at opsummere, EasyPhoto-rammen

  1. Foreslår en ny tilgang til at træne LoRA-modellen ved at inkorporere flere LoRA-modeller for at opretholde ansigtsgengivelsen af ​​de genererede billeder. 
  2. Gør brug af forskellige forstærkende læringsmetoder til at optimere LoRA-modellerne for ansigtsidentitetsbelønninger, der yderligere hjælper med at øge ligheden mellem identiteter mellem træningsbillederne og de genererede resultater. 
  3. Foreslår en to-trins inpaint-baseret diffusionsproces, der har til formål at generere AI-fotos med høj æstetik og lighed. 

EasyPhoto : Arkitektur & Træning

Følgende figur viser træningsprocessen for EasyPhoto AI-rammeværket. 

Som det kan ses, beder frameworket først brugerne om at indtaste træningsbillederne og udfører derefter ansigtsgenkendelse for at registrere ansigtsplaceringerne. Når rammen registrerer ansigtet, beskærer den inputbilledet ved hjælp af et foruddefineret specifikt forhold, der udelukkende fokuserer på ansigtsområdet. Rammen implementerer derefter en hudforskønnelses- og en fremtrædende detekteringsmodel for at opnå et rent og klart ansigtstræningsbillede. Disse to modeller spiller en afgørende rolle i at forbedre den visuelle kvalitet af ansigtet, og sikrer også, at baggrundsinformationen er fjernet, og træningsbilledet overvejende indeholder ansigtet. Endelig bruger frameworket disse bearbejdede billeder og input-prompter til at træne LoRA-modellen og dermed udstyre den med evnen til at forstå brugerspecifikke ansigtskarakteristika mere effektivt og præcist. 

Ydermere, under træningsfasen, inkluderer frameworket et kritisk valideringstrin, hvor frameworket beregner face ID gapet mellem brugerinputbilledet og verifikationsbilledet, der blev genereret af den trænede LoRA model. Valideringstrinnet er en grundlæggende proces, der spiller en nøglerolle i at opnå fusionen af ​​LoRA-modellerne, hvilket i sidste ende sikrer, at trænet LoRA framework forvandles til en dobbeltgænger eller en nøjagtig digital repræsentation af brugeren. Derudover vil det bekræftelsesbillede, der har den optimale face_id-score, blive valgt som face_id-billedet, og dette face_id-billede vil derefter blive brugt til at forbedre identitetsligheden for interferensgenereringen. 

Med udgangspunkt i ensembleprocessen træner rammeværket LoRA-modellerne med sandsynlighedsestimering som det primære mål, mens bevarelse af ansigtsidentitetslighed er downstream-målet. For at løse dette problem gør EasyPhoto-rammen brug af forstærkende læringsteknikker til at optimere downstream-målet direkte. Som et resultat viser de ansigtstræk, som LoRA-modellerne lærer, forbedringer, der fører til en øget lighed mellem de skabelongenererede resultater og demonstrerer også generaliseringen på tværs af skabeloner. 

Interferensproces

Følgende figur viser interferensprocessen for et individuelt bruger-id i EasyPhoto-rammeværket og er opdelt i tre dele

  • Ansigtsforbehandling for at opnå ControlNet-referencen og det forbehandlede inputbillede. 
  • Første diffusion der hjælper med at generere grove resultater, der ligner brugerens input. 
  • Anden Diffusion der fikser grænseartefakterne, hvilket gør billederne mere nøjagtige og fremstår mere realistiske. 

Til input tager rammen et face_id-billede (genereret under træningsvalidering ved hjælp af den optimale face_id-score) og en interferensskabelon. Outputtet er et meget detaljeret, præcist og realistisk portræt af brugeren og ligner meget brugerens identitet og unikke udseende på basis af udledningsskabelonen. Lad os se nærmere på disse processer.

Ansigtsforbehandling

En måde at generere et AI-portræt baseret på en interferensskabelon uden bevidst begrundelse er at bruge SD-modellen til at male ansigtsområdet i interferensskabelonen. Derudover forbedrer tilføjelsen af ​​ControlNet-rammerne til processen ikke kun bevarelsen af ​​brugeridentiteten, men øger også ligheden mellem de genererede billeder. Brug af ControlNet direkte til regional maling kan dog introducere potentielle problemer, der kan omfatte

  • Uoverensstemmelse mellem input og det genererede billede: Det er tydeligt, at nøglepunkterne i skabelonbilledet ikke er kompatible med nøglepunkterne i face_id-billedet, hvorfor brug af ControlNet med face_id-billedet som reference kan føre til nogle uoverensstemmelser i outputtet. 
  • Fejl i malingsområdet: Maskering af et område og derefter indmaling af det med et nyt ansigt kan føre til mærkbare defekter, især langs inpaint-grænsen, som ikke kun vil påvirke ægtheden af ​​det genererede billede, men også vil påvirke billedets realisme negativt. 
  • Identitetstab af kontrolnet: Da træningsprocessen ikke bruger ControlNet-rammerne, kan brug af ControlNet i interferensfasen påvirke de trænede LoRA-modellers evne til at bevare input-bruger-id-identiteten. 

For at løse de ovenfor nævnte problemer foreslår EasyPhoto-rammen tre procedurer. 

  • Juster og indsæt: Ved at bruge en ansigts-pasting-algoritme sigter EasyPhoto-rammen på at tackle problemet med uoverensstemmelse mellem ansigtets vartegn mellem ansigts-id'et og skabelonen. Først beregner modellen ansigtets vartegn for face_id og skabelonbilledet, hvorefter modellen bestemmer den affine transformationsmatrix, der vil blive brugt til at justere ansigts-landmærkerne for skabelonbilledet med face_id-billedet. Det resulterende billede bevarer de samme vartegn som face_id-billedet og justeres også med skabelonbilledet. 
  • Ansigtssikring: Face Fuse er en ny tilgang, der bruges til at korrigere grænseartefakter, der er et resultat af maskeindmaling, og det involverer rettelse af artefakter ved hjælp af ControlNet-rammeværket. Metoden gør det muligt for EasyPhoto-rammen at sikre bevarelsen af ​​harmoniske kanter og dermed i sidste ende styre processen med billedgenerering. Ansigtsfusionsalgoritmen fusionerer yderligere roop-billedet (ground truth-brugerbilleder) og skabelonen, der tillader det resulterende fusionerede billede at udvise bedre stabilisering af kantgrænserne, hvilket derefter fører til et forbedret output under det første diffusionstrin. 
  • ControlNet guidet validering: Da LoRA-modellerne ikke blev trænet ved hjælp af ControlNet-rammeværket, kan brug af det under inferensprocessen påvirke LoRA-modellens evne til at bevare identiteterne. For at forbedre generaliseringsmulighederne i EasyPhoto, tager rammen hensyn til indflydelsen fra ControlNet-rammeværket og inkorporerer LoRA-modeller fra forskellige stadier. 

Første diffusion

Det første diffusionstrin bruger skabelonbilledet til at generere et billede med et unikt id, der ligner input bruger-id. Inputbilledet er en sammensmeltning af brugerinputbilledet og skabelonbilledet, hvorimod den kalibrerede ansigtsmaske er inputmasken. For yderligere at øge kontrollen over billedgenerering integrerer EasyPhoto-rammeværket tre ControlNet-enheder, hvor den første ControlNet-enhed fokuserer på styringen af ​​de fusionerede billeder, den anden ControlNet-enhed styrer farverne på det fusionerede billede, og den sidste ControlNet-enhed er den åbne position. (real-time multi-person human pose control) af det erstattede billede, der ikke kun indeholder ansigtsstrukturen af ​​skabelonbilledet, men også brugerens ansigtsidentitet.

Anden Diffusion

I det andet diffusionstrin forfines og finjusteres artefakterne nær grænsen af ​​ansigtet, samtidig med at de giver brugerne fleksibiliteten til at maskere et specifikt område i billedet i et forsøg på at øge effektiviteten af ​​genereringen inden for det dedikerede område. I dette trin fusionerer rammeværket outputbilledet opnået fra det første diffusionstrin med tagbilledet eller resultatet af brugerens billede og genererer således inputbilledet til det andet diffusionstrin. Samlet set spiller det andet diffusionstrin en afgørende rolle i at forbedre den overordnede kvalitet og detaljerne i det genererede billede. 

Multibruger-id'er

Et af EasyPhotos højdepunkter er dets understøttelse af generering af flere bruger-id'er, og figuren nedenfor viser pipelinen af ​​interferensprocessen for multibruger-id'er i EasyPhoto-rammeværket. 

For at understøtte generering af multibruger-id udfører EasyPhoto-rammeværket først ansigtsgenkendelse på interferensskabelonen. Disse interferensskabeloner opdeles derefter i adskillige masker, hvor hver maske kun indeholder ét ansigt, og resten af ​​billedet er maskeret i hvidt, og dermed bryder multibruger-id-genereringen til en simpel opgave med at generere individuelle bruger-id'er. Når først rammen genererer bruger-id-billederne, flettes disse billeder ind i inferensskabelonen, hvilket letter en sømløs integration af skabelonbillederne med de genererede billeder, hvilket i sidste ende resulterer i et billede af høj kvalitet. 

Eksperimenter og resultater

Nu hvor vi har en forståelse af EasyPhoto-rammen, er det tid for os at udforske ydeevnen af ​​EasyPhoto-rammen. 

Ovenstående billede er genereret af EasyPhoto-plugin'et, og det bruger en Style-baseret SD-model til billedgenereringen. Som det kan ses, ser de genererede billeder realistiske ud og er ret nøjagtige. 

Billedet tilføjet ovenfor er genereret af EasyPhoto-rammen ved hjælp af en Comic Style-baseret SD-model. Som det kan ses, ser de komiske billeder og de realistiske billeder ganske realistiske ud, og ligner meget inputbilledet på baggrund af brugernes opfordringer eller krav. 

Billedet tilføjet nedenfor er blevet genereret af EasyPhoto-rammen ved at bruge en Multi-Person-skabelon. Som det tydeligt kan ses, er de genererede billeder klare, nøjagtige og ligner det originale billede. 

Ved hjælp af EasyPhoto kan brugere nu generere en bred vifte af AI-portrætter eller generere flere bruger-id'er ved hjælp af bevarede skabeloner eller bruge SD-modellen til at generere slutningsskabeloner. Billederne tilføjet ovenfor demonstrerer EasyPhoto-rammens evne til at producere forskellige AI-billeder af høj kvalitet.

Konklusion

I denne artikel har vi talt om EasyPhoto, en nyt WebUI-plugin der giver slutbrugere mulighed for at generere AI-portrætter og billeder. EasyPhoto WebUI-plugin'et genererer AI-portrætter ved hjælp af vilkårlige skabeloner, og de aktuelle implikationer af EasyPhoto WebUI understøtter forskellige fotostile og flere modifikationer. Derudover, for yderligere at forbedre EasyPhoto's muligheder, har brugerne fleksibiliteten til at generere billeder ved hjælp af SDXL-modellen for at generere mere tilfredsstillende, nøjagtige og forskelligartede billeder. EasyPhoto-rammeværket anvender en stabil diffusionsbasismodel kombineret med en fortrænet LoRA-model, der producerer billedoutput af høj kvalitet.

Interesseret i billedgeneratorer? Vi giver også en liste over Bedste AI Headshot Generatorer og Bedste AI-billedgeneratorer som er nemme at bruge og ikke kræver teknisk ekspertise.

"En ingeniør af profession, en forfatter udenad". Kunal er en teknisk skribent med en dyb kærlighed og forståelse for AI og ML, dedikeret til at forenkle komplekse begreber på disse områder gennem sin engagerende og informative dokumentation.