ciot O privire mai atentă la DALL-E 3 de la OpenAI - Unite.AI
Conectează-te cu noi

Inginerie promptă

O privire mai atentă la DALL-E 3 de la OpenAI

mm

Publicat

 on

DALL E 3

În AI generativă lume, ține pasul cu cele mai recente este numele jocului. Și când vine vorba de generarea de imagini, Stable Diffusion și Mijlocul călătoriei au fost platforma despre care toată lumea vorbea – până acum.

OpenAI, susținut de gigantul tehnologic Microsoft, a fost prezentat DALL E 3 în septembrie 20th, 2023.

DALL-E 3 nu se referă doar la crearea de imagini; este vorba de a-ți aduce ideile la viață, așa cum ți le-ai imaginat. Și partea cea mai bună? Este rapid, ca, foarte rapid. Ai o idee, o dai la DALL-E 3 și boom, imaginea ta este gata.

Așadar, în acest articol, ne vom scufunda în profunzime despre ce este DALL-E 3. Vom vorbi despre cum funcționează, ce îl diferențiază de restul și de ce ar putea fi instrumentul de care nu știai că ai nevoie. Fie că ești un designer, un artist sau doar cineva cu multe idei interesante, vei dori să rămâi pentru asta. Să începem.

Ceea ce este nou cu DALL·E 3 este că primește contextul mult mai bine decât DALL·E 2. Versiunile anterioare s-ar putea să fi ratat anumite detalii sau să fi ignorat câteva detalii ici și colo, dar DALL·E 3 este la punct. Preia detaliile exacte despre ceea ce cereți, oferindu-vă o imagine mai apropiată de ceea ce v-ați imaginat.

Partea tare? DALL·E 3 și Chat GPT sunt acum integrate împreună. Ei lucrează împreună pentru a vă ajuta să vă rafinați ideile. Filmați un concept, ChatGPT vă ajută la reglarea fină a promptului, iar DALL·E 3 îl aduce la viață. Dacă nu sunteți un fan al imaginii, puteți cere ChatGPT să modifice promptul și ca DALL·E 3 să încerce din nou. Pentru o taxă lunară de 20 USD, aveți acces la GPT-4, DALL·E 3 și multe alte funcții interesante.

Microsoft bingchat a pus mâna pe DALL·E 3 chiar înainte de ChatGPT de la OpenAI, iar acum nu sunt doar marile întreprinderi, ci toți cei care se joacă cu el gratuit. Integrarea în Bing Chat și Bing Image Creator face mult mai ușor de utilizat pentru oricine.

Ascensiunea modelelor de difuzie

În ultimii 3 ani, vision AI a asistat la creșterea modelelor de difuzie, făcând un salt înainte semnificativ, în special în generarea de imagini. Înainte de modelele de difuzie, Rețele contradictorii generative (GAN) au fost tehnologia de bază pentru generarea de imagini realiste.

Gans

Gans

Cu toate acestea, au avut parte de provocări, inclusiv nevoia de cantități mari de date și putere de calcul, ceea ce le făcea adesea dificil de gestionat.

Intrați radiodifuzare modele. Au apărut ca o alternativă mai stabilă și mai eficientă la GAN. Spre deosebire de GAN, modelele de difuzie funcționează prin adăugarea de zgomot la date, ascunzându-le până când rămâne doar aleatoriu. Apoi lucrează înapoi pentru a inversa acest proces, reconstruind date semnificative din zgomot. Acest proces s-a dovedit a fi eficient și necesită mai puține resurse, făcând modelele de difuzare un subiect fierbinte în comunitatea AI.

Adevăratul punct de cotitură a venit în jurul anului 2020, cu o serie de lucrări inovatoare și introducerea lui CLIP-ul lui OpenAI tehnologie, care a avansat semnificativ capabilitățile modelelor de difuzie. Acest lucru a făcut ca modelele de difuzie să fie excepțional de bune la sinteza text-la-imagine, permițându-le să genereze imagini realiste din descrierile textuale. Aceste descoperiri nu au fost doar în generarea de imagini, ci și în domenii precum compoziția muzicală și cercetare biomedicala.

Astăzi, modelele de difuzie nu sunt doar un subiect de interes academic, ci sunt folosite în scenarii practice, din lumea reală.

Modelare generativă și straturi de auto-atenție: DALL-E 3

Unul dintre progresele critice în acest domeniu a fost evoluția modelării generative, cu abordări bazate pe eșantionare, cum ar fi modelarea generativă autoregresivă și procesele de difuzie, conducând calea. Au transformat modelele text în imagine, ducând la îmbunătățiri drastice ale performanței. Prin împărțirea generației de imagini în pași discreti, aceste modele au devenit mai manevrabile și mai ușor de învățat pentru rețelele neuronale.

În paralel, utilizarea straturilor de autoatenție a jucat un rol crucial. Aceste straturi, stivuite împreună, au ajutat la generarea de imagini fără a fi nevoie de părtiniri spațiale implicite, o problemă comună cu circumvoluțiile. Această schimbare a permis modelelor text-to-image să se scaleze și să se îmbunătățească în mod fiabil, datorită proprietăților de scalare bine înțelese ale transformatoarelor.

Provocări și soluții în generarea de imagini

În ciuda acestor progrese, controlabilitatea în generarea imaginii rămâne o provocare. Probleme precum urmărirea promptului, în care modelul ar putea să nu adere îndeaproape la textul introdus, au fost predominante. Pentru a rezolva acest lucru, au fost propuse noi abordări, cum ar fi îmbunătățirea subtitrărilor, care vizează îmbunătățirea calității perechilor de text și imagini în seturile de date de antrenament.

Îmbunătățirea subtitrării: O abordare inedită

Îmbunătățirea subtitrărilor implică generarea de subtitrări de mai bună calitate pentru imagini, ceea ce, la rândul său, ajută la formarea unor modele mai precise text-to-image. Acest lucru se realizează printr-un captioner de imagini robust care produce descrieri detaliate și precise ale imaginilor. Prin antrenamentul pe aceste subtitrări îmbunătățite, DALL-E 3 a reușit să obțină rezultate remarcabile, care seamănă foarte mult cu fotografiile și lucrările de artă produse de oameni.

Antrenament pe Date sintetice

Conceptul de instruire pe date sintetice nu este nou. Cu toate acestea, contribuția unică aici este crearea unui sistem nou, descriptiv de subtitrări a imaginilor. Impactul utilizării subtitrărilor sintetice pentru antrenarea modelelor generative a fost substanțial, ceea ce a condus la îmbunătățirea capacității modelului de a urma cu acuratețe instrucțiunile.

Evaluarea DALL-E 3

Prin evaluări multiple și comparații cu modelele anterioare precum DALL-E 2 și Stable Diffusion XL, DALL-E 3 a demonstrat performanțe superioare, în special în sarcinile legate de urmărirea promptă.

Compararea modelelor text cu imagine pe diferite evaluări

Compararea modelelor text cu imagine pe diferite evaluări

Utilizarea evaluărilor automate și a benchmark-urilor a oferit dovezi clare ale capacităților sale, consolidându-și poziția ca generator de ultimă generație de text-to-image.

DALL-E 3 Îndemnuri și abilități

DALL-E 3 oferă o abordare mai logică și mai rafinată a creării imaginilor. Pe măsură ce parcurgeți, veți observa cum DALL-E creează fiecare imagine, cu un amestec de acuratețe și imaginație care rezonează cu solicitarea dată.

Spre deosebire de predecesorul său, această versiune îmbunătățită excelează în aranjarea naturală a obiectelor într-o scenă și în prezentarea trăsăturilor umane cu precizie, până la numărul corect de degete pe o mână. Îmbunătățirile se extind la detalii mai fine și sunt acum disponibile la o rezoluție mai mare, asigurând rezultate mai realiste și mai profesionale.

Capacitățile de redare a textului au cunoscut, de asemenea, îmbunătățiri substanțiale. În cazul în care versiunile anterioare DALL-E au produs text idiot, DALL-E 3 poate genera acum litere lizibile și cu stil profesional (uneori) și chiar și logo-uri curate uneori.

Înțelegerea de către model a solicitărilor de imagini complexe și nuanțate a fost îmbunătățită semnificativ. DALL-E 3 poate urma acum cu acuratețe descrieri detaliate, chiar și în scenarii cu elemente multiple și instrucțiuni specifice, demonstrând capacitatea sa de a produce imagini coerente și bine compuse. Să explorăm câteva prompturi și rezultatul respectiv:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 imagini bazate pe mesaje text

Imagini DALL-E 3 bazate pe solicitări de text (rețineți că posterul din stânga are ortografie greșită)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 imagini bazate pe mesaje text

DALL-E 3 imagini bazate pe mesaje text

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 imagini bazate pe mesaje text

Imagini DALL-E 3 bazate pe solicitări de text (rețineți că ambele postere au ortografii greșite)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
DALL-E 3 imagini bazate pe mesaje text

DALL-E 3 imagini bazate pe mesaje text

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
DALL-E 3 imagini bazate pe mesaje text

DALL-E 3 imagini bazate pe mesaje text

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
DALL-E 3 imagini bazate pe mesaje text

DALL-E 3 imagini bazate pe mesaje text

Limitări și riscuri ale DALL-E 3

OpenAI a făcut pași semnificativi pentru a filtra conținutul explicit din datele de antrenament ale DALL-E 3, cu scopul de a reduce părtinirile și de a îmbunătăți rezultatul modelului. Aceasta include aplicarea unor filtre specifice pentru categoriile de conținut sensibile și o revizuire a pragurilor pentru filtre mai largi. Stiva de atenuare include, de asemenea, mai multe straturi de garanții, cum ar fi mecanisme de refuz în ChatGPT pentru subiecte sensibile, clasificatoare de introducere promptă pentru a preveni încălcările politicii, liste de blocare pentru anumite categorii de conținut și transformări pentru a se asigura că solicitările sunt aliniate cu liniile directoare.

În ciuda progreselor sale, DALL-E 3 are limitări în înțelegerea relațiilor spațiale, redarea cu acuratețe a textului lung și generarea de imagini specifice. OpenAI recunoaște aceste provocări și lucrează la îmbunătățiri pentru versiunile viitoare.

Compania lucrează, de asemenea, la modalități de a diferenția imaginile generate de AI de cele realizate de oameni, reflectând angajamentul lor față de transparență și utilizarea responsabilă a AI.

DALL · E

DALL E 3

DALL-E 3, cea mai recentă versiune, va fi disponibilă în etape, începând cu anumite grupuri de clienți și extinzându-se ulterior la laboratoarele de cercetare și serviciile API. Cu toate acestea, o dată de lansare publică gratuită nu este încă confirmată.

OpenAI stabilește cu adevărat un nou standard în domeniul AI cu DALL-E 3, unind perfect capabilități tehnice complexe și interfețe ușor de utilizat. Integrarea DALL-E 3 în platforme utilizate pe scară largă precum Bing reflectă o trecere de la aplicații specializate la forme mai largi și mai accesibile de divertisment și utilitate.

Adevăratul schimbător de joc în următorii ani va fi probabil echilibrul dintre inovație și abilitarea utilizatorilor. Companiile care prosperă vor fi cele care nu numai că depășesc limitele a ceea ce poate realiza AI, ci și oferă utilizatorilor autonomia și controlul pe care și le doresc. OpenAI, cu angajamentul său față de IA etică, navighează pe această cale cu atenție. Scopul este clar: de a crea instrumente AI care nu sunt doar puternice, ci și de încredere și incluzive, asigurându-se că beneficiile AI sunt accesibile tuturor.

Mi-am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a învățării automate și a învățării profunde. Pasiunea și expertiza mea m-au determinat să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și către Procesarea limbajului natural, un domeniu pe care sunt dornic să îl explorez în continuare.