Stummel EasyPhoto: Ihr persönlicher KI-Fotogenerator – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

EasyPhoto: Ihr persönlicher KI-Fotogenerator

mm
Aktualisiert on
EasyPhoto: Ihr persönlicher KI-Porträtgenerator

Stable Diffusion Web User Interface oder SD-WebUI ist ein umfassendes Projekt für Stable Diffusion-Modelle, das die Gradio-Bibliothek nutzt, um eine Browserschnittstelle bereitzustellen. Heute sprechen wir über EasyPhoto, ein innovatives WebUI-Plugin, mit dem Endbenutzer KI-Porträts und -Bilder erstellen können. Das EasyPhoto WebUI-Plugin erstellt KI-Porträts mithilfe verschiedener Vorlagen und unterstützt verschiedene Fotostile und mehrere Modifikationen. Um die Funktionen von EasyPhoto weiter zu verbessern, können Benutzer außerdem Bilder mit dem SDXL-Modell erstellen, um zufriedenstellendere, genauere und vielfältigere Ergebnisse zu erzielen. Lass uns anfangen.

Eine Einführung in EasyPhoto und Stable Diffusion

Das Stable Diffusion Framework ist ein beliebtes und robustes diffusionsbasiertes Generierungsframework, das von Entwicklern verwendet wird, um realistische Bilder basierend auf Eingabetextbeschreibungen zu generieren. Dank seiner Fähigkeiten verfügt das Stable Diffusion-Framework über ein breites Anwendungsspektrum, einschließlich Bild-Outpainting, Bild-Inpainting und Bild-zu-Bild-Übersetzung. Die Stable Diffusion Web UI, oder SD-WebUI, ist eine der beliebtesten und bekanntesten Anwendungen dieses Frameworks. Es verfügt über eine Browseroberfläche, die auf der Gradio-Bibliothek basiert und eine interaktive und benutzerfreundliche Oberfläche für Stable Diffusion-Modelle bietet. Um die Kontrolle und Benutzerfreundlichkeit bei der Bilderzeugung weiter zu verbessern, integriert SD-WebUI zahlreiche Stable Diffusion-Anwendungen.

Aufgrund der Bequemlichkeit, die das SD-WebUI-Framework bietet, haben die Entwickler des EasyPhoto-Frameworks beschlossen, es als Web-Plugin und nicht als vollwertige Anwendung zu erstellen. Im Gegensatz zu bestehenden Methoden, die oft unter Identitätsverlust leiden oder unrealistische Merkmale in Bilder einbringen, nutzt das EasyPhoto-Framework die Bild-zu-Bild-Fähigkeiten der Stable Diffusion-Modelle, um genaue und realistische Bilder zu erzeugen. Benutzer können das EasyPhoto-Framework problemlos als Erweiterung innerhalb der WebUI installieren und so die Benutzerfreundlichkeit und Zugänglichkeit für ein breiteres Benutzerspektrum verbessern. Mit dem EasyPhoto-Framework können Benutzer identitätsgesteuerte, qualitativ hochwertige und erstellen realistische KI-Porträts die der Eingabeidentität sehr ähneln.

Zunächst fordert das EasyPhoto-Framework Benutzer auf, ihren digitalen Doppelgänger zu erstellen, indem sie ein paar Bilder hochladen, um online ein LoRA- oder Low-Rank-Adaptationsmodell für Gesichter zu trainieren. Das LoRA-Framework optimiert die Diffusionsmodelle schnell, indem es die Low-Rank-Anpassungstechnologie nutzt. Dieser Prozess ermöglicht es dem Basismodell, die ID-Informationen bestimmter Benutzer zu verstehen. Die trainierten Modelle werden dann zur Interferenz zusammengeführt und in das Basismodell der stabilen Diffusion integriert. Darüber hinaus verwendet das Modell während des Interferenzprozesses stabile Diffusionsmodelle, um die Gesichtsbereiche in der Interferenzvorlage neu zu zeichnen, und die Ähnlichkeit zwischen den Eingabe- und Ausgabebildern wird mithilfe der verschiedenen ControlNet-Einheiten überprüft. 

Das EasyPhoto-Framework setzt außerdem einen zweistufigen Diffusionsprozess ein, um potenzielle Probleme wie Grenzartefakte und Identitätsverlust anzugehen und so sicherzustellen, dass die erzeugten Bilder visuelle Inkonsistenzen minimieren und gleichzeitig die Identität des Benutzers wahren. Darüber hinaus ist die Interferenzpipeline im EasyPhoto-Framework nicht nur auf die Generierung von Porträts beschränkt, sondern kann auch zur Generierung aller Dinge verwendet werden, die mit der Benutzer-ID zusammenhängen. Dies bedeutet, dass, sobald Sie das trainiert haben LoRA-Modell Für einen bestimmten Ausweis können Sie eine breite Palette von KI-Bildern generieren und somit vielfältige Anwendungen einschließlich virtueller Anproben ermöglichen. 

Um es zusammenzufassen: das EasyPhoto-Framework

  1. Schlägt einen neuartigen Ansatz zum Trainieren des LoRA-Modells vor, indem mehrere LoRA-Modelle integriert werden, um die Gesichtstreue der erzeugten Bilder beizubehalten. 
  2. Nutzt verschiedene Reinforcement-Learning-Methoden, um die LoRA-Modelle für Gesichtsidentitätsbelohnungen zu optimieren, was dazu beiträgt, die Ähnlichkeit der Identitäten zwischen den Trainingsbildern und den generierten Ergebnissen weiter zu verbessern. 
  3. Schlägt einen zweistufigen Inpaint-basierten Diffusionsprozess vor, der darauf abzielt, KI-Fotos mit hoher Ästhetik und Ähnlichkeit zu erzeugen. 

EasyPhoto: Architektur & Ausbildung

Die folgende Abbildung zeigt den Trainingsprozess des EasyPhoto AI-Frameworks. 

Wie man sieht, fordert das Framework die Benutzer zunächst auf, die Trainingsbilder einzugeben, und führt dann eine Gesichtserkennung durch, um die Gesichtspositionen zu erkennen. Sobald das Framework das Gesicht erkennt, schneidet es das Eingabebild mit einem vordefinierten spezifischen Verhältnis zu, das sich ausschließlich auf den Gesichtsbereich konzentriert. Das Framework setzt dann ein Hautverschönerungs- und ein Auffälligkeitserkennungsmodell ein, um ein sauberes und klares Gesichtstrainingsbild zu erhalten. Diese beiden Modelle spielen eine entscheidende Rolle bei der Verbesserung der visuellen Qualität des Gesichts und stellen außerdem sicher, dass die Hintergrundinformationen entfernt wurden und das Trainingsbild überwiegend das Gesicht enthält. Schließlich nutzt das Framework diese verarbeiteten Bilder und Eingabeaufforderungen, um das LoRA-Modell zu trainieren und es so mit der Fähigkeit auszustatten, benutzerspezifische Gesichtsmerkmale effektiver und genauer zu erfassen. 

Darüber hinaus umfasst das Framework während der Trainingsphase einen kritischen Validierungsschritt, in dem das Framework die Gesichts-ID-Lücke zwischen dem Benutzereingabebild und dem Verifizierungsbild berechnet, das vom trainierten LoRA-Modell generiert wurde. Der Validierungsschritt ist ein grundlegender Prozess, der eine Schlüsselrolle bei der Verschmelzung der LoRA-Modelle spielt und letztendlich sicherstellt, dass die trainiertes LoRA-Framework verwandelt sich in einen Doppelgänger oder eine genaue digitale Darstellung des Benutzers. Darüber hinaus wird das Verifizierungsbild mit dem optimalen face_id-Score als face_id-Bild ausgewählt und dieses face_id-Bild wird dann verwendet, um die Identitätsähnlichkeit der Interferenzgenerierung zu verbessern. 

Basierend auf dem Ensemble-Prozess trainiert das Framework die LoRA-Modelle, wobei die Wahrscheinlichkeitsschätzung das Hauptziel ist, während die Wahrung der Ähnlichkeit der Gesichtsidentität das nachgelagerte Ziel ist. Um dieses Problem anzugehen, nutzt das EasyPhoto-Framework Reinforcement-Learning-Techniken, um das nachgelagerte Ziel direkt zu optimieren. Infolgedessen zeigen die Gesichtsmerkmale, die die LoRA-Modelle lernen, eine Verbesserung an, die zu einer größeren Ähnlichkeit zwischen den durch die Vorlage generierten Ergebnissen führt und auch die Verallgemeinerung über Vorlagen hinweg demonstriert. 

Interferenzprozess

Die folgende Abbildung zeigt den Interferenzprozess für eine einzelne Benutzer-ID im EasyPhoto-Framework und ist in drei Teile unterteilt

  • Gesichtsvorverarbeitung zum Erhalten der ControlNet-Referenz und des vorverarbeiteten Eingabebildes. 
  • Erste Verbreitung Dies hilft bei der Generierung grober Ergebnisse, die der Benutzereingabe ähneln. 
  • Zweite Verbreitung Dadurch werden die Grenzartefakte behoben, wodurch die Bilder genauer und realistischer erscheinen. 

Für die Eingabe verwendet das Framework ein face_id-Bild (das während der Trainingsvalidierung unter Verwendung des optimalen face_id-Scores generiert wurde) und eine Interferenzvorlage. Die Ausgabe ist ein sehr detailliertes, genaues und realistisches Porträt des Benutzers und ähnelt stark der Identität und dem einzigartigen Erscheinungsbild des Benutzers auf der Grundlage der Infer-Vorlage. Werfen wir einen detaillierten Blick auf diese Prozesse.

Gesichtsvorprozess

Eine Möglichkeit, ohne bewusste Überlegung ein KI-Porträt auf der Grundlage einer Interferenzvorlage zu erstellen, besteht darin, das SD-Modell zu verwenden, um den Gesichtsbereich in der Interferenzvorlage einzumalen. Darüber hinaus verbessert die Hinzufügung des ControlNet-Frameworks zum Prozess nicht nur die Wahrung der Benutzeridentität, sondern erhöht auch die Ähnlichkeit zwischen den generierten Bildern. Die direkte Verwendung von ControlNet für regionales Inpainting kann jedoch zu potenziellen Problemen führen

  • Inkonsistenz zwischen der Eingabe und dem generierten Bild: Es ist offensichtlich, dass die Schlüsselpunkte im Vorlagenbild nicht mit den Schlüsselpunkten im face_id-Bild kompatibel sind, weshalb die Verwendung von ControlNet mit dem face_id-Bild als Referenz zu einigen Inkonsistenzen in der Ausgabe führen kann. 
  • Defekte im Inpaint-Bereich: Das Maskieren eines Bereichs und das anschließende Inpainting mit einem neuen Gesicht kann zu erkennbaren Fehlern führen, insbesondere entlang der Inpaint-Grenze, die sich nicht nur auf die Authentizität des erzeugten Bildes, sondern auch negativ auf den Realismus des Bildes auswirken. 
  • Identitätsverlust durch Kontrollnetz: Da der Trainingsprozess nicht das ControlNet-Framework nutzt, kann die Verwendung von ControlNet während der Interferenzphase die Fähigkeit der trainierten LoRA-Modelle beeinträchtigen, die eingegebene Benutzer-ID-Identität beizubehalten. 

Um die oben genannten Probleme anzugehen, schlägt das EasyPhoto-Framework drei Verfahren vor. 

  • Ausrichten und Einfügen: Durch die Verwendung eines Algorithmus zum Einfügen von Gesichtern zielt das EasyPhoto-Framework darauf ab, das Problem der Nichtübereinstimmung zwischen Gesichtsmarkierungen zwischen der Gesichts-ID und der Vorlage zu lösen. Zuerst berechnet das Modell die Gesichtsmarkierungen der Gesichts-ID und des Vorlagenbilds. Anschließend bestimmt das Modell die affine Transformationsmatrix, die verwendet wird, um die Gesichtsmarkierungen des Vorlagenbilds mit dem Gesichts-ID-Bild auszurichten. Das resultierende Bild behält die gleichen Orientierungspunkte wie das face_id-Bild bei und richtet sich auch am Vorlagenbild aus. 
  • Gesichtssicherung: Face Fuse ist ein neuartiger Ansatz, der zur Korrektur der Grenzartefakte verwendet wird, die durch das Inpainting von Masken entstehen, und die Korrektur von Artefakten mithilfe des ControlNet-Frameworks umfasst. Die Methode ermöglicht es dem EasyPhoto-Framework, die Erhaltung harmonischer Kanten sicherzustellen und so letztendlich den Prozess der Bilderzeugung zu steuern. Der Gesichtsfusionsalgorithmus verschmilzt das Roop-Bild (Ground Truth User Images) und die Vorlage weiter, wodurch das resultierende fusionierte Bild eine bessere Stabilisierung der Kantengrenzen aufweist, was dann zu einer verbesserten Ausgabe während der ersten Diffusionsstufe führt. 
  • ControlNet-geführte Validierung: Da die LoRA-Modelle nicht mit dem ControlNet-Framework trainiert wurden, könnte die Verwendung während des Inferenzprozesses Auswirkungen auf die Fähigkeit des LoRA-Modells haben, die Identitäten zu bewahren. Um die Generalisierungsfähigkeiten von EasyPhoto zu verbessern, berücksichtigt das Framework den Einfluss des ControlNet-Frameworks und integriert LoRA-Modelle aus verschiedenen Phasen. 

Erste Verbreitung

Die erste Diffusionsstufe verwendet das Vorlagenbild, um ein Bild mit einer eindeutigen ID zu generieren, die der eingegebenen Benutzer-ID ähnelt. Das Eingabebild ist eine Fusion aus dem Benutzereingabebild und dem Vorlagenbild, während die kalibrierte Gesichtsmaske die Eingabemaske ist. Um die Kontrolle über die Bilderzeugung weiter zu erhöhen, integriert das EasyPhoto-Framework drei ControlNet-Einheiten, wobei sich die erste ControlNet-Einheit auf die Steuerung der fusionierten Bilder konzentriert, die zweite ControlNet-Einheit die Farben des fusionierten Bildes steuert und die letzte ControlNet-Einheit die Openpose ist (Echtzeit-Steuerung der menschlichen Pose mehrerer Personen) des ersetzten Bildes, das nicht nur die Gesichtsstruktur des Vorlagenbildes, sondern auch die Gesichtsidentität des Benutzers enthält.

Zweite Verbreitung

In der zweiten Diffusionsstufe werden die Artefakte nahe der Gesichtsgrenze verfeinert und feinabgestimmt. Außerdem erhalten Benutzer die Flexibilität, einen bestimmten Bereich im Bild zu maskieren, um die Effektivität der Erzeugung innerhalb dieses speziellen Bereichs zu verbessern. In dieser Phase verschmilzt das Framework das aus der ersten Diffusionsstufe erhaltene Ausgabebild mit dem Roop-Bild oder dem Ergebnis des Benutzerbilds und generiert so das Eingabebild für die zweite Diffusionsstufe. Insgesamt spielt die zweite Diffusionsstufe eine entscheidende Rolle bei der Verbesserung der Gesamtqualität und der Details des erzeugten Bildes. 

Mehrbenutzer-IDs

Eines der Highlights von EasyPhoto ist die Unterstützung für die Generierung mehrerer Benutzer-IDs. Die folgende Abbildung zeigt die Pipeline des Interferenzprozesses für mehrere Benutzer-IDs im EasyPhoto-Framework. 

Um die Generierung von Mehrbenutzer-IDs zu unterstützen, führt das EasyPhoto-Framework zunächst eine Gesichtserkennung an der Interferenzvorlage durch. Diese Interferenzvorlagen werden dann in zahlreiche Masken aufgeteilt, wobei jede Maske nur ein Gesicht enthält und der Rest des Bildes weiß maskiert ist, wodurch die Generierung von Mehrbenutzer-IDs in eine einfache Aufgabe der Generierung einzelner Benutzer-IDs aufgeteilt wird. Sobald das Framework die Benutzer-ID-Bilder generiert, werden diese Bilder in die Inferenzvorlage eingefügt, wodurch eine nahtlose Integration der Vorlagenbilder mit den generierten Bildern ermöglicht wird, was letztendlich zu einem qualitativ hochwertigen Bild führt. 

Experimente und Ergebnisse

Nachdem wir nun das EasyPhoto-Framework verstanden haben, ist es an der Zeit, die Leistung des EasyPhoto-Frameworks zu untersuchen. 

Das obige Bild wird vom EasyPhoto-Plugin generiert und verwendet ein Style-basiertes SD-Modell für die Bildgenerierung. Wie man beobachten kann, sehen die erzeugten Bilder realistisch aus und sind ziemlich genau. 

Das oben hinzugefügte Bild wird vom EasyPhoto-Framework unter Verwendung eines Comic-Style-basierten SD-Modells generiert. Wie man sehen kann, sehen die Comic-Fotos und die realistischen Fotos ziemlich realistisch aus und ähneln stark dem Eingabebild auf der Grundlage der Benutzeraufforderungen oder -anforderungen. 

Das unten hinzugefügte Bild wurde vom EasyPhoto-Framework unter Verwendung einer Multi-Person-Vorlage generiert. Wie deutlich zu erkennen ist, sind die erzeugten Bilder klar, genau und ähneln dem Originalbild. 

Mit Hilfe von EasyPhoto können Benutzer jetzt eine breite Palette von KI-Porträts erstellen, mehrere Benutzer-IDs mithilfe beibehaltener Vorlagen generieren oder das SD-Modell zum Generieren von Inferenzvorlagen verwenden. Die oben hinzugefügten Bilder zeigen die Fähigkeit des EasyPhoto-Frameworks, vielfältige und qualitativ hochwertige KI-Bilder zu erstellen.

Schlussfolgerung

In diesem Artikel haben wir über EasyPhoto gesprochen, a neuartiges WebUI-Plugin Damit können Endbenutzer KI-Porträts und -Bilder erstellen. Das EasyPhoto WebUI-Plugin generiert KI-Porträts mithilfe beliebiger Vorlagen, und die aktuellen Auswirkungen der EasyPhoto WebUI unterstützen verschiedene Fotostile und mehrere Modifikationen. Um die Funktionen von EasyPhoto weiter zu verbessern, haben Benutzer außerdem die Flexibilität, Bilder mithilfe des SDXL-Modells zu erstellen, um zufriedenstellendere, genauere und vielfältigere Bilder zu erstellen. Das EasyPhoto-Framework nutzt ein stabiles Diffusionsbasismodell in Verbindung mit einem vorab trainierten LoRA-Modell, das qualitativ hochwertige Bildausgaben erzeugt.

Interessiert an Bildgeneratoren? Wir stellen auch eine Liste der zur Verfügung Beste KI-Headshot-Generatoren und dem Beste KI-Bildgeneratoren die einfach zu bedienen sind und kein technisches Fachwissen erfordern.

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.