škrbina Pogled izbliza na OpenAI-jev DALL-E 3 - Unite.AI
Povežite se s nama

Brzi inženjering

Pogled izbliza na OpenAI-jev DALL-E 3

mm

Objavljeno

 on

DALL E 3

u Generativna AI svijetu, biti u toku s najnovijim je naziv igre. A kada je u pitanju generiranje slika, Stabilna difuzija i Sredina putovanja bili platforma o kojoj su svi pričali – do sada.

Predstavljen OpenAI, iza kojeg stoji tehnološki div Microsoft DALL E 3 u rujnu 20th, 2023.

DALL-E 3 nije samo stvaranje slika; radi se o oživljavanju vaših ideja, baš onako kako ste ih zamislili. A najbolji dio? Brzo je, kao, stvarno brzo. Imate ideju, ubacite je u DALL-E 3 i bum, vaša slika je spremna.

Dakle, u ovom ćemo članku zaroniti duboko u ono što DALL-E 3 uopće predstavlja. Razgovarat ćemo o tome kako funkcionira, što ga izdvaja od ostalih i zašto bi to mogao biti alat za koji niste znali da vam treba. Bilo da ste dizajner, umjetnik ili samo netko s puno cool ideja, htjet ćete se zadržati na ovome. Započnimo.

Ono što je novo kod DALL·E 3 je to što dobiva kontekst mnogo bolje od DALL·E 2. Prethodne verzije možda su propustile neke pojedinosti ili zanemarile poneki detalj tu i tamo, ali DALL·E 3 je u pravu. Hvata točne detalje onoga što tražite, dajući vam sliku koja je bliža onome što ste zamislili.

Cool dio? DALL·E 3 i ChatGPT sada su zajedno integrirani. Oni rade zajedno kako bi poboljšali vaše ideje. Vi snimite koncept, ChatGPT pomaže u finom podešavanju upita, a DALL·E 3 ga oživljava. Ako niste obožavatelj slike, možete zatražiti od ChatGPT-a da podesi upit i natjera DALL·E 3 da pokuša ponovno. Za mjesečnu naknadu od 20$, dobivate pristup GPT-4, DALL·E 3 i mnogim drugim cool značajkama.

Microsoft bingchat dočepao se DALL·E 3 čak i prije OpenAI-jevog ChatGPT-a, a sada nisu samo velika poduzeća, već svi oni koji se mogu igrati s njim besplatno. Integracija u Bing Chat i Bing Image Creator olakšava korištenje svima.

Uspon difuzijskih modela

U posljednje 3 godine, vision AI svjedoči usponu difuzijskih modela, čineći značajan korak naprijed, posebno u stvaranju slika. Prije modela difuzije, Generativne kontradiktorne mreže (GAN) bili su glavna tehnologija za stvaranje realističnih slika.

GAN -ovi

GAN -ovi

Međutim, imali su svoje izazove, uključujući potrebu za golemim količinama podataka i računalne snage, što ih je često činilo teškim za rukovanje.

ući radiodifuzija modeli. Pojavili su se kao stabilnija i učinkovitija alternativa GAN-ovima. Za razliku od GAN-ova, difuzijski modeli funkcioniraju dodavanjem šuma podacima, prikrivajući ih sve dok ne ostane samo slučajnost. Zatim rade unatrag kako bi preokrenuli ovaj proces, rekonstruirajući značajne podatke iz buke. Ovaj se proces pokazao učinkovitim i zahtijeva manje resursa, zbog čega su modeli difuzije vruća tema u zajednici umjetne inteligencije.

Prava prekretnica dogodila se oko 2020., s nizom inovativnih radova i uvođenjem OpenAI-jev CLIP tehnologija, koja je značajno unaprijedila mogućnosti difuzijskih modela. To je difuzijske modele učinilo iznimno dobrima u sintezi teksta u sliku, što im je omogućilo generiranje realističnih slika iz tekstualnih opisa. Ti pomaci nisu bili samo u stvaranju slike, već iu poljima poput glazbeni sastav i biomedicinska istraživanja.

Danas difuzijski modeli nisu samo tema akademskog interesa, već se koriste u praktičnim scenarijima stvarnog svijeta.

Generativno modeliranje i slojevi samopažnje: DALL-E 3

Jedan od ključnih napredaka u ovom području bila je evolucija generativnog modeliranja, s pristupima koji se temelje na uzorkovanju kao što su autoregresivno generativno modeliranje i procesi difuzije koji prednjače. Oni su transformirali modele teksta u sliku, što je dovelo do drastičnih poboljšanja performansi. Rastavljanjem generiranja slike u diskretne korake, ovi su modeli postali pristupačniji i lakši za učenje neuronskih mreža.

Paralelno, korištenje slojeva samopažnje odigralo je ključnu ulogu. Ovi slojevi, složeni zajedno, pomogli su u generiranju slika bez potrebe za implicitnim prostornim pristranostima, što je čest problem kod zavoja. Ova promjena omogućila je skaliranje i pouzdano poboljšanje modela teksta u sliku, zahvaljujući dobro poznatim svojstvima skaliranja transformatora.

Izazovi i rješenja u stvaranju slike

Unatoč ovim naprecima, mogućnost kontrole u stvaranju slike ostaje izazov. Prevladavaju problemi poput brzog praćenja, gdje se model možda neće dobro pridržavati unesenog teksta. Kako bi se to riješilo, predloženi su novi pristupi kao što je poboljšanje opisa, usmjereni na poboljšanje kvalitete uparivanja teksta i slika u skupovima podataka za obuku.

Poboljšanje naslova: novi pristup

Poboljšanje naslova uključuje generiranje opisa bolje kvalitete za slike, što zauzvrat pomaže u obučavanju točnijih modela teksta u sliku. To se postiže robusnim opisom slika koji daje detaljne i točne opise slika. Uvježbavanjem ovih poboljšanih naslova DALL-E 3 je uspio postići izvanredne rezultate, vrlo nalik fotografijama i umjetničkim djelima koje su izradili ljudi.

Trening dalje Sintetički podaci

Koncept obuke na sintetičkim podacima nije nov. Međutim, jedinstveni doprinos ovdje je u stvaranju novog, deskriptivnog sustava opisivanja slika. Utjecaj korištenja sintetičkih naslova za obuku generativnih modela bio je značajan, što je dovelo do poboljšanja u sposobnosti modela da točno slijedi upute.

Procjena DALL-E 3

Kroz višestruko ocjenjivanje i usporedbe s prethodnim modelima kao što su DALL-E 2 i Stable Diffusion XL, DALL-E 3 je pokazao superiorne performanse, posebno u zadacima povezanim s brzim praćenjem.

Usporedba modela tekst-slika na različitim evaluacijama

Usporedba modela tekst-slika na različitim evaluacijama

Korištenje automatiziranih procjena i referentnih vrijednosti pružilo je jasne dokaze njegovih mogućnosti, učvršćujući njegovu poziciju vrhunskog generatora teksta u sliku.

DALL-E 3 Upute i sposobnosti

DALL-E 3 nudi logičniji i profinjeniji pristup stvaranju vizualnih sadržaja. Dok se pomičete, primijetit ćete kako DALL-E izrađuje svaku sliku, s mješavinom točnosti i mašte koja rezonira s danim upitom.

Za razliku od svog prethodnika, ova nadograđena verzija ističe se u prirodnom rasporedu objekata unutar scene i preciznom prikazivanju ljudskih crta lica, sve do točnog broja prstiju na ruci. Poboljšanja se proširuju na sitnije detalje i sada su dostupna u višoj razlučivosti, osiguravajući realističniji i profesionalniji ispis.

Mogućnosti prikazivanja teksta također su znatno poboljšane. Dok su prethodne verzije DALL-E stvarale besmislice, DALL-E 3 sada može generirati čitljiva i profesionalno oblikovana slova (ponekad), pa čak i povremeno čiste logotipe.

Modelovo razumijevanje složenih i nijansiranih slikovnih zahtjeva značajno je poboljšano. DALL-E 3 sada može točno slijediti detaljne opise, čak i u scenarijima s više elemenata i specifičnim uputama, pokazujući svoju sposobnost stvaranja koherentnih i dobro komponiranih slika. Istražimo neke upite i odgovarajuće rezultate koje smo dobili:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 slike na temelju tekstualnih upita

DALL-E 3 slike temeljene na tekstualnim upitima (imajte na umu da je lijevi poster krivo napisan)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 slike na temelju tekstualnih upita

DALL-E 3 slike na temelju tekstualnih upita

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 slike na temelju tekstualnih upita

DALL-E 3 slike temeljene na tekstualnim uputama (imajte na umu da su oba postera pogrešno napisana)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
DALL-E 3 slike na temelju tekstualnih upita

DALL-E 3 slike na temelju tekstualnih upita

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
DALL-E 3 slike na temelju tekstualnih upita

DALL-E 3 slike na temelju tekstualnih upita

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
DALL-E 3 slike na temelju tekstualnih upita

DALL-E 3 slike na temelju tekstualnih upita

Ograničenja i rizik DALL-E 3

OpenAI je poduzeo značajne korake za filtriranje eksplicitnog sadržaja iz podataka o obuci DALL-E 3, s ciljem smanjenja pristranosti i poboljšanja rezultata modela. To uključuje primjenu posebnih filtara za kategorije osjetljivog sadržaja i reviziju pragova za šire filtre. Skup za ublažavanje također uključuje nekoliko slojeva zaštite, kao što su mehanizmi odbijanja u ChatGPT-u za osjetljive teme, klasifikatori brzog unosa za sprječavanje kršenja pravila, popisi blokiranih za određene kategorije sadržaja i transformacije kako bi se osiguralo da su odgovori usklađeni sa smjernicama.

Unatoč svom napretku, DALL-E 3 ima ograničenja u razumijevanju prostornih odnosa, preciznom prikazivanju dugog teksta i generiranju specifičnih slika. OpenAI shvaća te izazove i radi na poboljšanjima za buduće verzije.

Tvrtka također radi na načinima kako razlikovati slike generirane umjetnom inteligencijom od onih koje su izradili ljudi, odražavajući njihovu predanost transparentnosti i odgovornoj upotrebi umjetne inteligencije.

DALL E

DALL E 3

DALL-E 3, najnovija verzija, bit će dostupna u fazama počevši s određenim skupinama korisnika i kasnije proširivanjem na istraživačke laboratorije i API usluge. Međutim, datum besplatnog javnog izdavanja još nije potvrđen.

OpenAI doista postavlja novi standard u području umjetne inteligencije s DALL-E 3, neprimjetno premošćujući složene tehničke mogućnosti i sučelja prilagođena korisniku. Integracija DALL-E 3 u široko korištene platforme poput Binga odražava pomak od specijaliziranih aplikacija prema širim, pristupačnijim oblicima zabave i korisnosti.

Stvarna promjena u nadolazećim godinama vjerojatno će biti ravnoteža između inovacija i osnaživanja korisnika. Tvrtke koje će napredovati bit će one koje ne samo da pomiču granice onoga što umjetna inteligencija može postići, već i pružaju korisnicima autonomiju i kontrolu koju žele. OpenAI, sa svojom predanošću etičkoj umjetnoj inteligenciji, pažljivo ide ovim putem. Cilj je jasan: stvoriti alate umjetne inteligencije koji nisu samo moćni, već i pouzdani i uključivi, osiguravajući da su prednosti umjetne inteligencije dostupne svima.

Proteklih pet godina proveo sam uranjajući u fascinantan svijet strojnog i dubokog učenja. Moja strast i stručnost naveli su me da pridonesem više od 50 različitih projekata softverskog inženjeringa, s posebnim fokusom na AI/ML. Moja stalna znatiželja također me povukla prema obradi prirodnog jezika, polju koje jedva čekam dalje istraživati.