Rýchle inžinierstvo

Bližší pohľad na OpenAI DALL-E 3

uverejnené

1 dni

Októbra 31, 2023

V Generatívna AI svet, držať krok s najnovšími je názov hry. A pokiaľ ide o generovanie obrázkov, Stable Diffusion a Stredná cesta boli platformou, o ktorej všetci hovorili – až doteraz.

OpenAI, za ktorým stojí technologický gigant Microsoft, predstavil DALL E 3 20. septembra 2023.

DALL-E 3 nie je len o vytváraní obrázkov; ide o to uviesť svoje nápady do života, presne tak, ako ste si ich predstavovali. A najlepšia časť? Je to rýchle, naozaj rýchle. Máte nápad, zadáte ho do DALL-E 3 a bum, váš obrázok je pripravený.

V tomto článku sa teda ponoríme hlboko do toho, o čom je DALL-E 3. Povieme si o tom, ako to funguje, čím sa odlišuje od ostatných a prečo to môže byť práve nástroj, o ktorom ste nevedeli, že ho potrebujete. Či už ste dizajnér, umelec alebo len niekto s množstvom skvelých nápadov, v tomto sa budete chcieť držať. Začnime.

Čo je nové na DALL·E 3 je, že dostáva kontext oveľa lepšie ako DALL·E 2. Staršie verzie mohli vynechať niektoré špecifiká alebo ignorovať niekoľko detailov tu a tam, ale DALL·E 3 je na mieste. Zachytí presné detaily toho, čo požadujete, a poskytne vám obraz, ktorý je bližšie k tomu, čo ste si predstavovali.

Skvelá časť? DALL·E 3 a ChatGPT sú teraz integrované. Spolupracujú, aby pomohli vylepšiť vaše nápady. Nasnímate koncept, ChatGPT pomôže doladiť výzvu a DALL·E 3 ju oživí. Ak nie ste fanúšikom tohto obrázku, môžete požiadať ChatGPT o úpravu výzvy a získať DALL·E 3, aby to skúsil znova. Za mesačný poplatok 20 $ získate prístup ku GPT-4, DALL·E 3 a mnohým ďalším skvelým funkciám.

Microsoft bingchat DALL·E 3 sa dostal do rúk ešte skôr ako ChatGPT od OpenAI a teraz to nie sú len veľké podniky, ale každý, kto si s ním môže zahrať zadarmo. Integrácia do Bing Chat a Bing Image Creator uľahčuje používanie pre každého.

Vzostup modelov difúzie

V posledných 3 rokoch bola vízia AI svedkom vzostupu modelov difúzie, pričom urobila významný skok vpred, najmä pri vytváraní obrázkov. Pred difúznymi modelmi, Generative Adversarial Networks (GAN) boli hlavnou technológiou na vytváranie realistických obrázkov.

GAN

Mali však svoj podiel výziev vrátane potreby obrovského množstva údajov a výpočtového výkonu, v dôsledku čoho sa s nimi často ťažko manipulovalo.

vstúpiť rozptyl modelov. Objavili sa ako stabilnejšia a efektívnejšia alternatíva k GAN. Na rozdiel od GAN fungujú modely difúzie tak, že k údajom pridávajú šum a zakrývajú ich, kým nezostane iba náhodnosť. Potom pracujú spätne, aby zvrátili tento proces a rekonštruovali zmysluplné údaje zo šumu. Tento proces sa ukázal ako efektívny a menej náročný na zdroje, vďaka čomu sú modely difúzie horúcou témou v komunite AI.

Skutočný zlom nastal okolo roku 2020 so sériou inovatívnych článkov a zavedením tzv CLIP OpenAI technológia, ktorá výrazne zlepšila možnosti difúznych modelov. Vďaka tomu boli modely difúzie mimoriadne dobré v syntéze textu na obrázok, čo im umožnilo vytvárať realistické obrázky z textových popisov. Tieto prelomy neboli len pri vytváraní obrazu, ale aj v oblastiach ako hudobná skladba a biomedicínsky výskum.

Dnes nie sú modely difúzie len témou akademického záujmu, ale používajú sa aj v praktických scenároch v reálnom svete.

Generatívne modelovanie a vrstvy sebapozorovania: DALL-E 3

zdroj

Jedným z kritických pokrokov v tejto oblasti bol vývoj generatívneho modelovania s prístupmi založenými na vzorkovaní, ako je autoregresné generatívne modelovanie a difúzne procesy. Transformovali modely textu na obrázok, čo viedlo k drastickému zlepšeniu výkonu. Rozdelením generovania obrazu na jednotlivé kroky sa tieto modely stali lepšie ovládateľnými a ľahšie sa učia neurónové siete.

Paralelne zohralo kľúčovú úlohu použitie samoupozorňovacích vrstiev. Tieto vrstvy, naskladané dohromady, pomohli pri vytváraní obrázkov bez potreby implicitných priestorových skreslení, čo je bežný problém pri konvolúciách. Tento posun umožnil modelom z textu na obrázok spoľahlivo škálovať a zlepšovať vďaka dobre pochopeným vlastnostiam transformátorov škálovania.

Výzvy a riešenia pri vytváraní obrázkov

Napriek týmto pokrokom zostáva ovládateľnosť pri vytváraní obrazu výzvou. Problémy, ako je rýchle sledovanie, kedy model nemusel presne dodržiavať vstupný text, boli prevládajúce. Na vyriešenie tohto problému boli navrhnuté nové prístupy, ako napríklad zlepšenie titulkov, zamerané na zvýšenie kvality párovania textu a obrázkov v súboroch údajov o školení.

Vylepšenie titulkov: Nový prístup

Zlepšenie titulkov zahŕňa generovanie kvalitnejších titulkov pre obrázky, čo zase pomáha pri trénovaní presnejších modelov text-to-image. Dosahuje sa to pomocou robustného popisovača obrázkov, ktorý vytvára podrobné a presné popisy obrázkov. Školením na týchto vylepšených titulkoch boli DALL-E 3 schopní dosiahnuť pozoruhodné výsledky, ktoré sa veľmi podobajú fotografiám a umeleckým dielam vytvoreným ľuďmi.

Školenie na Syntetické údaje

Koncept tréningu na syntetických dátach nie je nový. Jedinečný prínos tu však spočíva vo vytvorení nového, popisného systému popisovania obrázkov. Vplyv používania syntetických titulkov na trénovanie generatívnych modelov bol značný, čo viedlo k zlepšeniu schopnosti modelu presne sledovať výzvy.

Hodnotenie DALL-E 3

Prostredníctvom viacerých hodnotení a porovnaní s predchádzajúcimi modelmi, ako sú DALL-E 2 a Stable Diffusion XL, DALL-E 3 preukázal vynikajúci výkon, najmä v úlohách súvisiacich s rýchlym sledovaním.

Porovnanie modelov text-to-image na rôznych hodnoteniach

Použitie automatizovaných hodnotení a benchmarkov poskytlo jasný dôkaz o jeho schopnostiach a upevnilo jeho pozíciu ako najmodernejšieho generátora textu na obrázok.

DALL-E 3 Výzvy a schopnosti

DALL-E 3 ponúka logickejší a prepracovanejší prístup k tvorbe vizuálov. Pri prechádzaní si všimnete, ako DALL-E vytvára každý obrázok so zmesou presnosti a predstavivosti, ktorá rezonuje s danou výzvou.

Na rozdiel od svojho predchodcu táto inovovaná verzia vyniká prirodzeným usporiadaním objektov na scéne a presným zobrazením ľudských čŕt až do správneho počtu prstov na ruke. Vylepšenia sa rozširujú na jemnejšie detaily a sú teraz k dispozícii vo vyššom rozlíšení, čo zaisťuje realistickejší a profesionálnejší výstup.

Výrazné zlepšenie zaznamenali aj možnosti vykresľovania textu. Zatiaľ čo predchádzajúce verzie DALL-E vytvárali nezmyselný text, DALL-E 3 teraz dokáže generovať čitateľné a profesionálne štylizované nápisy (niekedy) a príležitostne aj čisté logá.

Pochopenie modelu zložitých a nuansovaných obrázkových požiadaviek sa výrazne zlepšilo. DALL-E 3 teraz dokáže presne sledovať podrobné popisy, dokonca aj v scenároch s viacerými prvkami a špecifickými pokynmi, čím demonštruje svoju schopnosť vytvárať súvislé a dobre skomponované obrázky. Poďme preskúmať niektoré výzvy a príslušný výstup, ktorý sme dostali:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 obrázky založené na textových výzvach

Obrázky DALL-E 3 založené na textových výzvach (Všimnite si, že ľavý plagát má nesprávne napísané)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 obrázky založené na textových výzvach

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

Obrázky DALL-E 3 založené na textových výzvach (Upozorňujeme, že oba plagáty majú nesprávne napísané)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

DALL-E 3 obrázky založené na textových výzvach

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

DALL-E 3 obrázky založené na textových výzvach

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

DALL-E 3 obrázky založené na textových výzvach

Obmedzenia a riziká DALL-E 3

OpenAI podniklo významné kroky na filtrovanie explicitného obsahu z tréningových dát DALL-E 3 s cieľom znížiť zaujatosti a zlepšiť výstup modelu. To zahŕňa použitie špecifických filtrov pre kategórie citlivého obsahu a revíziu prahových hodnôt pre širšie filtre. Zásobník zmierňovania tiež zahŕňa niekoľko vrstiev záruk, ako sú mechanizmy odmietnutia v ChatGPT pre citlivé témy, klasifikátory rýchlych vstupov na zabránenie porušovaniu pravidiel, zoznamy blokovaných pre konkrétne kategórie obsahu a transformácie na zabezpečenie súladu výziev s usmerneniami.

Napriek svojim pokrokom má DALL-E 3 obmedzenia v chápaní priestorových vzťahov, presného vykresľovania dlhého textu a vytvárania špecifických snímok. OpenAI uznáva tieto výzvy a pracuje na vylepšeniach pre budúce verzie.

Spoločnosť tiež pracuje na spôsoboch, ako odlíšiť obrázky generované AI od obrázkov vytvorených ľuďmi, čo odráža ich záväzok k transparentnosti a zodpovednému používaniu AI.

DALL E 3

DALL-E 3, najnovšia verzia, bude k dispozícii vo fázach počnúc špecifickými skupinami zákazníkov a neskôr sa rozšíri na výskumné laboratóriá a služby API. Bezplatný verejný dátum vydania však zatiaľ nie je potvrdený.

OpenAI skutočne nastavuje nový štandard v oblasti AI s DALL-E 3, ktorý hladko spája zložité technické možnosti a užívateľsky prívetivé rozhrania. Integrácia DALL-E 3 do široko používaných platforiem, ako je Bing, odráža posun od špecializovaných aplikácií k širším, dostupnejším formám zábavy a užitočnosti.

Skutočnou zmenou hry v nadchádzajúcich rokoch bude pravdepodobne rovnováha medzi inováciami a posilnením postavenia používateľov. Spoločnosti, ktorým sa bude dariť, budú tie, ktoré nielen posunú hranice toho, čo môže AI dosiahnuť, ale zároveň poskytnú používateľom autonómiu a kontrolu, po ktorej túžia. OpenAI, so svojím záväzkom k etickej AI, kráča touto cestou opatrne. Cieľ je jasný: vytvoriť nástroje AI, ktoré sú nielen výkonné, ale aj dôveryhodné a inkluzívne, čím sa zabezpečí, že výhody AI budú dostupné pre všetkých.

Nenechajte si ujsť

Okamžité hackovanie a zneužitie LLM

Aayush Mittal

Posledných päť rokov som strávil ponorením sa do fascinujúceho sveta strojového učenia a hlbokého učenia. Moja vášeň a odborné znalosti ma viedli k tomu, že som prispel k viac ako 50 rôznym projektom softvérového inžinierstva s osobitným zameraním na AI/ML. Moja neustála zvedavosť ma tiež priviedla k spracovaniu prirodzeného jazyka, oblasti, ktorú by som chcel ďalej skúmať.

Spojte sa.AI

Bližší pohľad na OpenAI DALL-E 3

Rýchle inžinierstvo

Bližší pohľad na OpenAI DALL-E 3

Obsah

Vzostup modelov difúzie

Generatívne modelovanie a vrstvy sebapozorovania: DALL-E 3

Výzvy a riešenia pri vytváraní obrázkov

Vylepšenie titulkov: Nový prístup

Školenie na Syntetické údaje

Hodnotenie DALL-E 3

DALL-E 3 Výzvy a schopnosti

Obmedzenia a riziká DALL-E 3

Posledné príspevky

Spojte sa.AI

Bližší pohľad na OpenAI DALL-E 3

Obsah

Vzostup modelov difúzie

Generatívne modelovanie a vrstvy sebapozorovania: DALL-E 3

Výzvy a riešenia pri vytváraní obrázkov

Vylepšenie titulkov: Nový prístup

Školenie na Syntetické údaje

Hodnotenie DALL-E 3

DALL-E 3 Výzvy a schopnosti

Obmedzenia a riziká DALL-E 3

Možno budete chcieť

Posledné príspevky