заглушки Детальніше про DALL-E 3 від OpenAI - Unite.AI
Зв'язатися з нами

Оперативна інженерія

Детальніше про DALL-E 3 від OpenAI

mm

опублікований

 on

DALL E 3

У Генеративний ШІ світ, йти в ногу з останнім - це назва гри. А коли справа доходить до створення зображень, Stable Diffusion і Серед подорожі були платформою, про яку всі говорили – досі.

Представлений OpenAI за підтримки технологічного гіганта Microsoft DALL E 3 у вересні 20th, 2023.

DALL-E 3 — це не лише створення зображень; це втілення ваших ідей у ​​життя саме так, як ви їх собі уявляли. А найкраща частина? Це швидко, як, дуже швидко. У вас є ідея, ви подаєте її в DALL-E 3, і бум, ваше зображення готове.

Отже, у цій статті ми збираємося глибше зануритися в те, що таке DALL-E 3. Ми поговоримо про те, як він працює, що відрізняє його від інших і чому це може бути саме той інструмент, про який ви навіть не підозрювали. Незалежно від того, чи ви дизайнер, художник чи просто хтось із багатьма крутими ідеями, ви захочете залишитися для цього. Давайте розпочнемо.

Новим у DALL·E 3 є те, що він отримує контекст набагато краще, ніж DALL·E 2. Попередні версії могли пропустити певні деталі або проігнорувати деякі деталі тут і там, але DALL·E 3 це точно. Він вловлює точні деталі того, про що ви просите, надаючи вам зображення, ближче до того, що ви собі уявляли.

Крута частина? DALL·E 3 і ChatGPT тепер інтегровані разом. Вони працюють разом, щоб удосконалити ваші ідеї. Ви знімаєте концепцію, ChatGPT допомагає налаштувати підказку, а DALL·E 3 втілює її в життя. Якщо ви не любите зображення, ви можете попросити ChatGPT налаштувати підказку та змусити DALL·E 3 спробувати ще раз. За щомісячну плату в 20 доларів ви отримуєте доступ до GPT-4, DALL·E 3 та багатьох інших цікавих функцій.

Microsoft Чат Bing отримав DALL·E 3 ще до того, як це зробив OpenAI's ChatGPT, і тепер не лише великі підприємства, але й усі, хто може грати з ним безкоштовно. Інтеграція в Bing Chat і Bing Image Creator значно полегшує використання будь-кому.

Поява дифузійних моделей

За останні 3 роки vision AI став свідком зростання дифузійних моделей, зробивши значний крок вперед, особливо у створенні зображень. До дифузійних моделей, Генеративні змагальні мережі (GAN) були основною технологією для створення реалістичних зображень.

ГАН

ГАН

Однак у них були певні труднощі, включно з потребою у величезних обсягах даних і обчислювальної потужності, через що їх часто було складно впоратися.

Що натомість? Створіть віртуальну версію себе у дифузія моделі. Вони з’явилися як більш стабільна та ефективна альтернатива GAN. На відміну від GAN, дифузійні моделі працюють шляхом додавання шуму до даних, приховуючи їх, поки не залишиться лише випадковість. Потім вони працюють у зворотному напрямку, щоб повернути назад цей процес, реконструюючи значущі дані з шуму. Цей процес виявився ефективним і менш ресурсомістким, що зробило дифузійні моделі гарячою темою в спільноті ШІ.

Справжній переломний момент настав приблизно у 2020 році з серією інноваційних документів і впровадженням CLIP від ​​OpenAI технологія, яка значно розширила можливості дифузійних моделей. Це зробило дифузійні моделі надзвичайно хорошими в синтезі тексту в зображення, дозволяючи їм створювати реалістичні зображення з текстових описів. Ці прориви були не лише у створенні зображень, а й у таких галузях, як музична композиція та біомедичні дослідження.

Сьогодні дифузійні моделі є не лише темою академічного інтересу, але й використовуються в практичних сценаріях реального світу.

Генеративне моделювання та рівні самоуважності: DALL-E 3

Одним із важливих досягнень у цій галузі стала еволюція генеративного моделювання з підходами на основі вибірки, такими як авторегресійне генеративне моделювання та процеси дифузії. Вони трансформували моделі тексту в зображення, що призвело до значного покращення продуктивності. Розбиваючи генерацію зображення на окремі кроки, ці моделі стали більш піддатливими та легшими для вивчення нейронними мережами.

Паралельно використання шарів самоуважності зіграло вирішальну роль. Ці шари, зібрані разом, допомогли створити зображення без потреби в неявних просторових зміщеннях, що є типовою проблемою для звивин. Ця зміна дозволила масштабувати та надійно покращувати моделі перетворення тексту в зображення завдяки добре зрозумілим властивостям масштабування трансформаторів.

Проблеми та рішення у створенні іміджу

Незважаючи на ці досягнення, контрольованість створення зображень залишається проблемою. Такі проблеми, як швидке слідування, де модель може не прилягати до введеного тексту, були поширеними. Щоб вирішити цю проблему, були запропоновані нові підходи, такі як покращення підписів, спрямовані на підвищення якості поєднання тексту та зображень у навчальних наборах даних.

Покращення субтитрів: новий підхід

Удосконалення підписів передбачає створення підписів кращої якості для зображень, що, у свою чергу, допомагає в навчанні більш точних моделей перетворення тексту в зображення. Це досягається за допомогою надійного субтитра, який створює детальні та точні описи зображень. Навчаючись на цих покращених субтитрах, DALL-E 3 вдалося досягти чудових результатів, дуже схожих на фотографії та твори мистецтва, створені людьми.

Навчання на Синтетичні дані

Концепція навчання на синтетичних даних не нова. Однак унікальний внесок тут полягає у створенні нової, описової системи підписів до зображень. Вплив використання синтетичних титрів для навчання генеративних моделей був значним, що призвело до покращення здатності моделі точно слідувати підказкам.

Оцінка DALL-E 3

Завдяки численним оцінкам і порівнянням із попередніми моделями, такими як DALL-E 2 і Stable Diffusion XL, DALL-E 3 продемонстрував чудову продуктивність, особливо в завданнях, пов’язаних із оперативним слідуванням.

Порівняння моделей текст-зображення на різних оцінках

Порівняння моделей текст-зображення на різних оцінках

Використання автоматизованих оцінок і порівняльних показників надає чіткі докази його можливостей, зміцнюючи його позиції як найсучаснішого генератора тексту в зображення.

Підказки та можливості DALL-E 3

DALL-E 3 пропонує більш логічний і вишуканий підхід до створення візуальних зображень. Прокручуючи сторінку, ви помітите, як DALL-E створює кожне зображення з поєднанням точності та фантазії, що резонує з заданою підказкою.

На відміну від свого попередника, ця оновлена ​​версія вирізняється природним розташуванням об’єктів у сцені та точним зображенням рис людини, аж до правильної кількості пальців на руці. Покращення поширюються на дрібніші деталі та тепер доступні у вищій роздільній здатності, забезпечуючи більш реалістичний і професійний результат.

Можливості відтворення тексту також суттєво покращилися. Там, де попередні версії DALL-E створювали безглуздий текст, DALL-E 3 тепер може створювати розбірливі та професійно оформлені написи (іноді) і навіть чисті логотипи.

Розуміння моделі складних і деталізованих запитів на зображення було значно покращено. DALL-E 3 тепер може точно слідувати детальним описам, навіть у сценаріях із кількома елементами та конкретними інструкціями, демонструючи свою здатність створювати цілісні та добре скомпоновані зображення. Давайте розглянемо деякі підказки та відповідні результати, які ми отримали:

Design the packaging for a line of organic teas. Include space for the product name and description.

Зображення DALL-E 3 на основі текстових підказок

Зображення DALL-E 3 на основі текстових підказок (зверніть увагу, що лівий плакат має неправильне написання)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

Зображення DALL-E 3 на основі текстових підказок

Зображення DALL-E 3 на основі текстових підказок

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

Зображення DALL-E 3 на основі текстових підказок

Зображення DALL-E 3 на основі текстових підказок (зверніть увагу, що обидва плакати мають неправильне написання)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
Зображення DALL-E 3 на основі текстових підказок

Зображення DALL-E 3 на основі текстових підказок

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
Зображення DALL-E 3 на основі текстових підказок

Зображення DALL-E 3 на основі текстових підказок

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
Зображення DALL-E 3 на основі текстових підказок

Зображення DALL-E 3 на основі текстових підказок

Обмеження та ризики DALL-E 3

OpenAI зробив значні кроки для фільтрації відвертого вмісту з даних навчання DALL-E 3, щоб зменшити упередження та покращити результат моделі. Це включає застосування спеціальних фільтрів для категорій конфіденційного вмісту та перегляд порогових значень для ширших фільтрів. Стек пом’якшення також включає кілька рівнів захисту, наприклад механізми відмови в ChatGPT для чутливих тем, класифікатори підказок для запобігання порушенням правил, списки блокування для певних категорій вмісту та перетворення для забезпечення відповідності підказок інструкціям.

Незважаючи на свої досягнення, DALL-E 3 має обмеження в розумінні просторових зв’язків, точному відтворенні довгого тексту та створенні конкретних зображень. OpenAI визнає ці проблеми та працює над покращеннями для майбутніх версій.

Компанія також працює над тим, щоб відрізнити зображення, створені штучним інтелектом, від зображень, створених людьми, що відображає їхнє прагнення до прозорості та відповідального використання штучного інтелекту.

ДАЛЛ Е

DALL E 3

DALL-E 3, остання версія, буде доступна поетапно, починаючи з конкретних груп клієнтів і згодом поширюючись на дослідницькі лабораторії та служби API. Однак дата вільного публічного випуску ще не підтверджена.

OpenAI справді встановлює новий стандарт у сфері штучного інтелекту з DALL-E 3, бездоганно поєднуючи складні технічні можливості та зручні інтерфейси. Інтеграція DALL-E 3 у такі широко використовувані платформи, як Bing, відображає перехід від спеціалізованих додатків до ширших, доступніших форм розваг і користі.

У найближчі роки справжньою зміною стане баланс між інноваціями та розширенням можливостей користувачів. Компанії, які процвітають, будуть ті, які не тільки розширюють межі можливостей ШІ, але й надають користувачам автономію та контроль, яких вони бажають. OpenAI, з його прихильністю до етичного ШІ, обережно рухається цим шляхом. Мета зрозуміла: створити інструменти штучного інтелекту, які є не тільки потужними, але й надійними та інклюзивними, забезпечуючи доступність переваг ШІ для всіх.

Останні п’ять років я провів, занурюючись у захоплюючий світ машинного та глибокого навчання. Моя пристрасть і досвід допомогли мені внести свій внесок у понад 50 різноманітних проектів розробки програмного забезпечення, зосередивши особливу увагу на ШІ/ML. Моя постійна цікавість також привела мене до обробки природної мови, галузі, яку я хочу досліджувати далі.