taló Una mirada més propera al DALL-E 3 d'OpenAI - Unite.AI
Connecteu-vos amb nosaltres

Enginyeria ràpida

Una mirada més propera al DALL-E 3 d'OpenAI

mm

publicat

 on

DALL·E 3

A la IA generativa món, estar al dia amb les últimes és el nom del joc. I quan es tracta de generar imatges, Difusió estable i A mig camí eren la plataforma de la qual tothom parlava, fins ara.

Es va presentar OpenAI, amb el suport del gegant tecnològic Microsoft DALL·E 3 el 20 de setembre de 2023.

DALL-E 3 no es tracta només de crear imatges; es tracta de donar vida a les teves idees, tal com te les vas imaginar. I la millor part? És ràpid, com, molt ràpid. Tens una idea, la transmetes a DALL-E 3 i, boom, la teva imatge està a punt.

Per tant, en aquest article, aprofundirem en què tracta DALL-E 3. Parlarem de com funciona, què el diferencia de la resta i per què podria ser l'eina que no sabíeu que necessiteu. Tant si sou un dissenyador, un artista o només algú amb moltes idees interessants, voldreu quedar-vos per això. Comencem.

El que hi ha de nou amb DALL·E 3 és que aconsegueix el context molt millor que DALL·E 2. Les versions anteriors poden haver perdut alguns detalls o ignorar alguns detalls aquí i allà, però DALL·E 3 està a punt. Recull els detalls exactes del que esteu demanant, donant-vos una imatge més propera al que us imagineu.

La part fresca? DALL·E 3 i Xat GPT ara estan integrats junts. Treballen junts per ajudar-vos a refinar les vostres idees. Filmes un concepte, ChatGPT ajuda a ajustar el missatge i DALL·E 3 li dóna vida. Si no sou un fan de la imatge, podeu demanar a ChatGPT que modifiqui el missatge i que DALL·E 3 ho torni a provar. Per un càrrec mensual de 20 $, tens accés a GPT-4, DALL·E 3 i moltes altres funcions interessants.

Microsoft's Xat de Bing va posar a les seves mans DALL·E 3 fins i tot abans que el ChatGPT d'OpenAI, i ara no són només les grans empreses, sinó tothom qui hi juga de forma gratuïta. La integració a Bing Chat i Bing Image Creator fa que sigui molt més fàcil d'utilitzar per a qualsevol.

L'auge dels models de difusió

En els darrers 3 anys, la vision AI ha estat testimoni de l'augment dels models de difusió, donant un salt endavant important, especialment en la generació d'imatges. Abans dels models de difusió, Xarxes adversàries generatives (GAN) van ser la tecnologia de referència per generar imatges realistes.

Gans

Gans

Tanmateix, tenien la seva part de reptes, inclosa la necessitat de grans quantitats de dades i potència computacional, que sovint els feia difícils de manejar.

Enter radiodifusió models. Van sorgir com una alternativa més estable i eficient als GAN. A diferència dels GAN, els models de difusió funcionen afegint soroll a les dades, enfosquint-les fins que només queda l'atzar. A continuació, treballen enrere per revertir aquest procés, reconstruint dades significatives a partir del soroll. Aquest procés ha demostrat ser eficaç i requereix menys recursos, fent que els models de difusió siguin un tema candent a la comunitat d'IA.

El veritable punt d'inflexió va arribar al voltant del 2020, amb una sèrie de treballs innovadors i la introducció de CLIP d'OpenAI tecnologia, que va avançar significativament les capacitats dels models de difusió. Això va fer que els models de difusió fossin excepcionalment bons per a la síntesi de text a imatge, cosa que els va permetre generar imatges realistes a partir de descripcions textuals. Aquests avenços no van ser només en la generació d'imatges, sinó també en camps com composició musical i investigació biomèdica.

Avui dia, els models de difusió no són només un tema d'interès acadèmic sinó que s'estan utilitzant en escenaris pràctics i del món real.

Modelatge generatiu i capes d'autoatenció: DALL-E 3

Un dels avenços crítics en aquest camp ha estat l'evolució del modelatge generatiu, amb enfocaments basats en el mostreig com el modelatge generatiu autoregressiu i els processos de difusió liderant el camí. Han transformat els models de text a imatge, donant lloc a millores dràstiques del rendiment. En dividir la generació d'imatges en passos discrets, aquests models s'han tornat més manejables i més fàcils d'aprendre per a les xarxes neuronals.

Paral·lelament, l'ús de capes d'autoatenció ha tingut un paper crucial. Aquestes capes, apilades juntes, han ajudat a generar imatges sense necessitat de biaixos espacials implícits, un problema comú amb les circumvolucions. Aquest canvi ha permès que els models de text a imatge s'escallin i millorin de manera fiable, a causa de les propietats d'escala ben enteses dels transformadors.

Reptes i solucions en la generació d'imatges

Malgrat aquests avenços, la controlabilitat en la generació d'imatges continua sent un repte. Problemes com ara el seguiment d'indicacions, en què el model pot no s'adhereix molt al text d'entrada, han estat freqüents. Per fer-ho, s'han proposat nous enfocaments, com ara la millora dels subtítols, amb l'objectiu de millorar la qualitat dels aparellaments de text i imatge en conjunts de dades d'entrenament.

Millora dels subtítols: un enfocament nou

La millora dels subtítols implica generar subtítols de millor qualitat per a les imatges, que al seu torn ajuda a entrenar models de text a imatge més precisos. Això s'aconsegueix mitjançant un subtítol d'imatges robust que produeix descripcions detallades i precises de les imatges. Mitjançant l'entrenament en aquests subtítols millorats, DALL-E 3 ha estat capaç d'aconseguir resultats notables, que s'assemblen molt a fotografies i obres d'art produïdes per humans.

Entrenament en marxa Dades sintètiques

El concepte de formació sobre dades sintètiques no és nou. Tanmateix, la contribució única aquí està en la creació d'un nou sistema de subtítols d'imatges descriptius. L'impacte de l'ús de subtítols sintètics per a l'entrenament de models generatius ha estat substancial, la qual cosa ha donat lloc a millores en la capacitat del model per seguir les indicacions amb precisió.

Avaluació de DALL-E 3

Mitjançant múltiples avaluacions i comparacions amb models anteriors com DALL-E 2 i Stable Diffusion XL, DALL-E 3 ha demostrat un rendiment superior, especialment en tasques relacionades amb el seguiment ràpid.

Comparació de models text a imatge en diverses avaluacions

Comparació de models text a imatge en diverses avaluacions

L'ús d'avaluacions i benchmarks automatitzats ha proporcionat una evidència clara de les seves capacitats, consolidant la seva posició com a generador de text a imatge d'última generació.

DALL-E 3 Indicacions i habilitats

DALL-E 3 ofereix un enfocament més lògic i refinat per crear imatges. A mesura que us desplaceu, notareu com DALL-E elabora cada imatge, amb una combinació de precisió i imaginació que ressona amb la indicació donada.

A diferència de la seva predecessora, aquesta versió millorada destaca per organitzar objectes de manera natural dins d'una escena i representar els trets humans amb precisió, fins al nombre correcte de dits d'una mà. Les millores s'estenen a detalls més fins i ara estan disponibles amb una resolució més alta, garantint una sortida més realista i professional.

Les capacitats de representació de text també han experimentat una millora substancial. Allà on les versions anteriors de DALL-E produïen un text absurd, DALL-E 3 ara pot generar lletres llegibles i d'estil professional (de vegades), i fins i tot logotips nets de vegades.

S'ha millorat significativament la comprensió del model de les sol·licituds d'imatge complexes i matisades. DALL-E 3 ara pot seguir amb precisió descripcions detallades, fins i tot en escenaris amb múltiples elements i instruccions específiques, demostrant la seva capacitat per produir imatges coherents i ben compostes. Explorem algunes indicacions i la sortida corresponent que hem obtingut:

Design the packaging for a line of organic teas. Include space for the product name and description.

Imatges DALL-E 3 basades en indicacions de text

Imatges DALL-E 3 basades en indicacions de text (tingueu en compte que el cartell esquerre té una ortografia incorrecta)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

Imatges DALL-E 3 basades en indicacions de text

Imatges DALL-E 3 basades en indicacions de text

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

Imatges DALL-E 3 basades en indicacions de text

Imatges DALL-E 3 basades en indicacions de text (tingueu en compte que els dos pòsters tenen una grafia incorrecta)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
Imatges DALL-E 3 basades en indicacions de text

Imatges DALL-E 3 basades en indicacions de text

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
Imatges DALL-E 3 basades en indicacions de text

Imatges DALL-E 3 basades en indicacions de text

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
Imatges DALL-E 3 basades en indicacions de text

Imatges DALL-E 3 basades en indicacions de text

Limitacions i risc de DALL-E 3

OpenAI ha fet passos importants per filtrar el contingut explícit de les dades d'entrenament de DALL-E 3, amb l'objectiu de reduir els biaixos i millorar la sortida del model. Això inclou l'aplicació de filtres específics per a categories de contingut sensible i una revisió dels llindars per a filtres més amplis. La pila de mitigació també inclou diverses capes de salvaguardes, com ara mecanismes de rebuig a ChatGPT per a temes sensibles, classificadors d'entrada d'indicacions per evitar infraccions de polítiques, llistes de bloqueig per a categories de contingut específiques i transformacions per garantir que les indicacions s'ajustin a les directrius.

Malgrat els seus avenços, DALL-E 3 té limitacions en la comprensió de les relacions espacials, la representació de text llarg amb precisió i la generació d'imatges específiques. OpenAI reconeix aquests reptes i està treballant en millores per a futures versions.

La companyia també està treballant en maneres de diferenciar les imatges generades per IA de les fetes per humans, reflectint el seu compromís amb la transparència i l'ús responsable de la IA.

DALL E

DALL·E 3

DALL-E 3, l'última versió, estarà disponible en fases, començant per grups de clients específics i ampliant-se posteriorment als laboratoris de recerca i als serveis d'API. No obstant això, encara no s'ha confirmat una data de llançament al públic gratuït.

OpenAI està realment establint un nou estàndard en el camp de la IA amb DALL-E 3, unint perfectament capacitats tècniques complexes i interfícies fàcils d'utilitzar. La integració de DALL-E 3 a plataformes àmpliament utilitzades com Bing reflecteix un canvi d'aplicacions especialitzades a formes d'entreteniment i utilitat més àmplies i accessibles.

El veritable canvi de joc en els propers anys probablement serà l'equilibri entre la innovació i l'apoderament dels usuaris. Les empreses que prosperin seran les que no només superen els límits del que pot aconseguir la IA, sinó que també proporcionen als usuaris l'autonomia i el control que desitgen. OpenAI, amb el seu compromís amb la IA ètica, està navegant per aquest camí amb cura. L'objectiu és clar: crear eines d'IA que no només siguin potents, sinó també fiables i inclusives, garantint que els beneficis de la IA siguin accessibles per a tothom.

He passat els últims cinc anys submergint-me en el fascinant món de l'aprenentatge automàtic i l'aprenentatge profund. La meva passió i experiència m'han portat a contribuir a més de 50 projectes diversos d'enginyeria de programari, amb un enfocament particular en IA/ML. La meva curiositat contínua també m'ha atret cap al processament del llenguatge natural, un camp que tinc ganes d'explorar més.