заглушки EasyPhoto: Ваш персональний фотогенератор штучного інтелекту - Unite.AI
Зв'язатися з нами

Artificial Intelligence

EasyPhoto: ваш персональний генератор фотографій зі штучним інтелектом

mm
оновлений on
EasyPhoto: ваш персональний генератор портретів штучного інтелекту

Стабільна дифузія Веб-інтерфейс користувача, або SD-WebUI, — це комплексний проект для моделей Stable Diffusion, який використовує бібліотеку Gradio для забезпечення інтерфейсу браузера. Сьогодні ми поговоримо про EasyPhoto, інноваційний плагін WebUI, який дозволяє кінцевим користувачам створювати портрети та зображення AI. Плагін EasyPhoto WebUI створює портрети штучного інтелекту за допомогою різних шаблонів, підтримуючи різні стилі фотографій і численні модифікації. Крім того, для подальшого розширення можливостей EasyPhoto користувачі можуть створювати зображення за допомогою моделі SDXL для більш задовільних, точних і різноманітних результатів. Давайте почнемо.

Вступ до EasyPhoto та Stable Diffusion

Структура Stable Diffusion — це популярна та надійна структура генерації на основі дифузії, яка використовується розробниками для створення реалістичних зображень на основі вхідних текстових описів. Завдяки своїм можливостям фреймворк Stable Diffusion може похвалитися широким спектром застосувань, включаючи зафарбовування зображень, замальовування зображень і трансляцію зображення в зображення. Stable Diffusion Web UI, або SD-WebUI, є одним із найпопулярніших і найвідоміших додатків цього фреймворку. Він має інтерфейс браузера, побудований на основі бібліотеки Gradio, що забезпечує інтерактивний і зручний інтерфейс для моделей Stable Diffusion. Для подальшого покращення контролю та зручності створення зображень SD-WebUI інтегрує численні програми Stable Diffusion.

Завдяки зручності фреймворку SD-WebUI розробники фреймворку EasyPhoto вирішили створити його як веб-плагін, а не як повноцінну програму. На відміну від існуючих методів, які часто втрачають ідентифікацію або вводять нереалістичні елементи в зображення, фреймворк EasyPhoto використовує можливості моделей Stable Diffusion для створення точних і реалістичних зображень. Користувачі можуть легко інсталювати структуру EasyPhoto як розширення в WebUI, підвищуючи зручність і доступність для ширшого кола користувачів. Фреймворк EasyPhoto дозволяє користувачам створювати високоякісні та керовані ідентифікацією реалістичні портрети AI які дуже схожі на вхідну ідентифікацію.

По-перше, фреймворк EasyPhoto просить користувачів створити свого цифрового двійника, завантаживши кілька зображень, щоб тренувати модель обличчя LoRA або Low-Rank Adaptation онлайн. Фреймворк LoRA швидко налаштовує дифузійні моделі, використовуючи технологію адаптації низького рангу. Цей процес дозволяє базовій моделі розуміти ідентифікаційну інформацію конкретних користувачів. Потім навчені моделі об’єднуються та інтегруються в базову модель стабільної дифузії для перешкод. Крім того, під час інтерференційного процесу модель використовує стабільні дифузійні моделі, намагаючись перефарбувати області обличчя в інтерференційному шаблоні, а подібність між вхідним і вихідним зображеннями перевіряється за допомогою різних блоків ControlNet. 

Фреймворк EasyPhoto також розгортає двоетапний процес дифузії для вирішення потенційних проблем, таких як артефакти кордонів і втрата ідентичності, таким чином гарантуючи, що створені зображення мінімізують візуальні невідповідності, зберігаючи ідентичність користувача. Крім того, канал перешкод у структурі EasyPhoto обмежується не лише створенням портретів, але також може використовуватися для створення будь-чого, що пов’язано з ідентифікатором користувача. Це означає, що як тільки ви навчитеся Модель LoRA для певного ідентифікатора ви можете створити широкий спектр зображень AI, і, таким чином, він може мати широке застосування, включаючи віртуальні примірки. 

Таким чином, структура EasyPhoto

  1. Пропонує новий підхід до навчання моделі LoRA шляхом об’єднання кількох моделей LoRA для підтримки точності обличчя створених зображень. 
  2. Використовує різні методи навчання з підкріпленням для оптимізації моделей LoRA для винагороди ідентифікації обличчя, що додатково допомагає підвищити схожість ідентичності між навчальними зображеннями та отриманими результатами. 
  3. Пропонує двоетапний процес розповсюдження на основі фарби, який спрямований на створення фотографій ШІ з високою естетикою та схожістю. 

EasyPhoto : Архітектура та навчання

На наступному малюнку показано процес навчання середовища EasyPhoto AI. 

Як видно, фреймворк спочатку просить користувачів ввести навчальні зображення, а потім виконує розпізнавання обличчя, щоб визначити розташування обличчя. Коли фреймворк виявляє обличчя, він обрізає вхідне зображення з використанням попередньо визначеного певного співвідношення, яке фокусується виключно на області обличчя. Потім структура розгортає модель прикрашання шкіри та виявлення помітності, щоб отримати чисте та чітке зображення тренування обличчя. Ці дві моделі відіграють вирішальну роль у покращенні візуальної якості обличчя, а також забезпечують видалення фонової інформації, а навчальне зображення переважно містить обличчя. Нарешті, структура використовує ці оброблені зображення та вхідні підказки для навчання моделі LoRA, і таким чином надає їй можливість більш ефективно й точно розуміти характерні для користувача характеристики обличчя. 

Крім того, під час фази навчання структура включає критичний етап перевірки, під час якого платформа обчислює розрив ідентифікатора обличчя між зображенням, введеним користувачем, і зображенням перевірки, яке було згенеровано навченою моделлю LoRA. Етап перевірки є фундаментальним процесом, який відіграє ключову роль у досягненні об’єднання моделей LoRA, гарантуючи, що в кінцевому підсумку навчена структура LoRA перетворюється на двійника або точне цифрове представлення користувача. Крім того, зображення перевірки, яке має оптимальну оцінку face_id, буде вибрано як зображення face_id, і це зображення face_id потім використовуватиметься для підвищення схожості ідентифікаційної інформації генерації перешкод. 

Рухаючись далі, базуючись на процесі ансамблю, структура тренує моделі LoRA, причому оцінка ймовірності є основною метою, тоді як збереження схожості ідентифікації обличчя є наступною метою. Щоб вирішити цю проблему, структура EasyPhoto використовує методи навчання підкріплення для безпосередньої оптимізації кінцевої цілі. У результаті риси обличчя, які вивчають моделі LoRA, відображають покращення, що призводить до покращеної подібності між результатами, згенерованими шаблоном, а також демонструє узагальнення між шаблонами. 

Процес інтерференції

Наступний малюнок демонструє процес втручання для індивідуального ідентифікатора користувача в середовищі EasyPhoto та розділений на три частини

  • Попередня обробка обличчя для отримання посилання ControlNet і попередньо обробленого вхідного зображення. 
  • Перша дифузія що допомагає генерувати приблизні результати, які нагадують введені користувачем дані. 
  • Друга дифузія який фіксує артефакти кордону, таким чином роблячи зображення точнішими та реалістичнішими. 

Для вхідних даних структура приймає зображення face_id (створене під час перевірки навчання з використанням оптимального показника face_id) і інтерференційний шаблон. Результатом є дуже детальний, точний і реалістичний портрет користувача, який дуже нагадує ідентичність і унікальний зовнішній вигляд користувача на основі шаблону висновку. Давайте детально розглянемо ці процеси.

Попередня обробка обличчя

Спосіб створення портрета штучного інтелекту на основі інтерференційного шаблону без свідомих міркувань полягає у використанні моделі SD для зафарбовування області обличчя в інтерференційному шаблоні. Крім того, додавання в процес інфраструктури ControlNet не тільки покращує збереження ідентичності користувача, але й покращує схожість між створеними зображеннями. Однак використання ControlNet безпосередньо для регіонального малювання може спричинити потенційні проблеми, які можуть включати

  • Невідповідність між введенням і створеним зображенням: Очевидно, що ключові точки зображення шаблону несумісні з ключовими точками зображення face_id, тому використання ControlNet із зображенням face_id як посилання може призвести до деяких невідповідностей у виводі. 
  • Дефекти в області Inpaint: Маскування області, а потім її зафарбовування новим обличчям може призвести до помітних дефектів, особливо вздовж межі зафарбовування, що не лише вплине на автентичність створеного зображення, але й негативно вплине на реалістичність зображення. 
  • Втрата ідентифікації через Control Net: Оскільки в процесі навчання не використовується структура ControlNet, використання ControlNet під час фази перешкод може вплинути на здатність навчених моделей LoRA зберігати ідентифікатор введеного користувача. 

Для вирішення проблем, згаданих вище, система EasyPhoto пропонує три процедури. 

  • Вирівняти та вставити: Використовуючи алгоритм вставки обличчя, структура EasyPhoto має на меті вирішити проблему невідповідності орієнтирів обличчя між ідентифікатором обличчя та шаблоном. Спочатку модель обчислює орієнтири обличчя face_id і зображення шаблону, після чого модель визначає матрицю афінного перетворення, яка використовуватиметься для вирівнювання орієнтирів обличчя шаблонного зображення із зображенням face_id. Отримане зображення зберігає ті самі орієнтири зображення face_id, а також вирівнюється із зображенням шаблону. 
  • Запобіжник для обличчя: Face Fuse — це новий підхід, який використовується для виправлення граничних артефактів, які є результатом малювання маски, і передбачає виправлення артефактів за допомогою середовища ControlNet. Цей метод дозволяє структурі EasyPhoto забезпечити збереження гармонійних країв і, таким чином, остаточно керувати процесом створення зображення. Алгоритм злиття облич додатково об’єднує зображення roop (користувацькі істинні зображення землі) і шаблон, що дозволяє отриманому злитому зображенню демонструвати кращу стабілізацію меж країв, що потім призводить до покращеного результату під час першого етапу дифузії. 
  • Керована перевірка ControlNet: Оскільки моделі LoRA не навчалися за допомогою структури ControlNet, її використання під час процесу логічного висновку може вплинути на здатність моделі LoRA зберігати ідентифікаційні дані. Щоб підвищити можливості узагальнення EasyPhoto, фреймворк враховує вплив фреймворку ControlNet і включає моделі LoRA з різних етапів. 

Перша дифузія

На першому етапі розповсюдження використовується зображення шаблону для створення зображення з унікальним ідентифікатором, який нагадує введений ідентифікатор користувача. Вхідне зображення є злиттям зображення, введеного користувачем, і зображення шаблону, тоді як відкалібрована маска обличчя є маскою введення. Щоб ще більше посилити контроль над створенням зображень, структура EasyPhoto об’єднує три блоки ControlNet, де перший блок ControlNet зосереджений на контролі злитих зображень, другий блок ControlNet контролює кольори злитого зображення, а останній блок ControlNet є openpose. (керування позою кількох людей у ​​режимі реального часу) заміненого зображення, яке містить не лише структуру обличчя шаблонного зображення, але й ідентичність обличчя користувача.

Друга дифузія

На другому етапі розповсюдження артефакти біля межі обличчя вдосконалюються та налаштовуються разом із наданням користувачам можливості маскувати певну область на зображенні, щоб підвищити ефективність генерації в цій виділеній області. На цьому етапі структура об’єднує вихідне зображення, отримане на першому етапі дифузії, із зображенням ланцюга або результатом зображення користувача, таким чином генеруючи вхідне зображення для другого етапу дифузії. Загалом другий етап дифузії відіграє вирішальну роль у покращенні загальної якості та деталей створеного зображення. 

Кілька ідентифікаторів користувачів

Однією з основних переваг EasyPhoto є його підтримка генерування кількох ідентифікаторів користувачів, і на малюнку нижче показано конвеєр процесу інтерференції для кількох ідентифікаторів користувачів у структурі EasyPhoto. 

Щоб забезпечити підтримку створення багатокористувацьких ідентифікаторів, платформа EasyPhoto спочатку виконує розпізнавання обличчя на шаблоні перешкод. Потім ці інтерференційні шаблони розбиваються на численні маски, де кожна маска містить лише одне обличчя, а решта зображення маскується білим кольором, таким чином розбиваючи генерацію багатокористувацьких ідентифікаторів на просте завдання генерації індивідуальних ідентифікаторів користувачів. Після того, як структура генерує зображення ідентифікатора користувача, ці зображення об’єднуються в шаблон висновку, таким чином полегшуючи бездоганну інтеграцію зображень шаблону зі згенерованими зображеннями, що в кінцевому підсумку призводить до високоякісного зображення. 

Експерименти та результати

Тепер, коли ми маємо розуміння фреймворку EasyPhoto, настав час дослідити продуктивність фреймворку EasyPhoto. 

Зображення вище створено плагіном EasyPhoto, і для створення зображення використовується модель SD на основі стилю. Як видно, створені зображення виглядають реалістично і досить точно. 

Зображення, додане вище, створено фреймворком EasyPhoto з використанням моделі SD на основі стилю коміксів. Як видно, жартівливі фотографії та реалістичні фотографії виглядають досить реалістично та дуже схожі на вхідне зображення на основі підказок або вимог користувача. 

Зображення, додане нижче, було створено фреймворком EasyPhoto за допомогою шаблону Multi-Person. Як видно, створені зображення чіткі, точні та схожі на вихідне зображення. 

За допомогою EasyPhoto тепер користувачі можуть створювати широкий спектр портретів штучного інтелекту або створювати кілька ідентифікаторів користувачів за допомогою збережених шаблонів або використовувати модель SD для створення шаблонів висновків. Зображення, додані вище, демонструють здатність середовища EasyPhoto створювати різноманітні та високоякісні зображення ШІ.

Висновок

У цій статті ми говорили про EasyPhoto, a новий плагін WebUI що дозволяє кінцевим користувачам створювати портрети та зображення AI. Плагін EasyPhoto WebUI створює портрети штучного інтелекту за допомогою довільних шаблонів, а поточні наслідки EasyPhoto WebUI підтримують різні стилі фотографій і численні модифікації. Крім того, для подальшого розширення можливостей EasyPhoto користувачі мають можливість створювати зображення за допомогою моделі SDXL, щоб створювати більш задовільні, точні та різноманітні зображення. Фреймворк EasyPhoto використовує стабільну базову модель дифузії в поєднанні з попередньо навченою моделлю LoRA, яка створює високоякісні вихідні зображення.

Цікавитесь генераторами зображень? Ми також надаємо список Найкращі генератори знімків голови AI і Найкращі генератори зображень AI які прості у використанні та не потребують технічних знань.

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.