stub Ħarsa aktar mill-qrib lejn DALL-E 3 ta' OpenAI - Unite.AI
Kuntatt magħna

Inġinerija fil-pront

Ħarsa aktar mill-qrib lejn DALL-E 3 ta' OpenAI

mm

ippubblikat

 on

DALL E 3

Fil- AI Ġenerattiva dinja, tlaħħaq ma 'l-aħħar huwa l-isem tal-logħba. U meta niġu biex jiġġeneraw immaġini, Diffużjoni Stabbli u Nofs il-vjaġġ kienu l-pjattaforma li kulħadd kien qed jitkellem dwarha – sa issa.

OpenAI, appoġġjat mill-ġgant teknoloġiku Microsoft, introduċa DALL E 3 fis-20 ta 'Settembru, 2023.

DALL-E 3 mhuwiex biss dwar il-ħolqien ta 'immaġini; huwa dwar li ġġib l-ideat tiegħek għall-ħajja, eżatt kif inti immaġinahom. U l-aħjar parti? Huwa mgħaġġel, bħal, verament mgħaġġel. Int ħadt idea, għalfha lil DALL-E 3, u boom, l-immaġni tiegħek hija lesta.

Għalhekk, f'dan l-artikolu, aħna se nidħlu fil-fond f'dak li huwa DALL-E 3. Aħna ser nitkellmu dwar kif taħdem, x'jiddistingwiha mill-bqija, u għaliex tista 'tkun biss l-għodda li ma kontx taf li għandek bżonn. Kemm jekk int disinjatur, artist, jew sempliċiment xi ħadd b'ħafna ideat friski, int se tkun trid iżżomm għal dan. Ejja nibdew.

X'hemm ġdid ma 'DALL·E 3 huwa li jikseb kuntest ferm aħjar minn DALL·E 2. Verżjonijiet preċedenti setgħu tilfu xi ispeċifiċitajiet jew injoraw ftit dettalji hawn u hemm, iżda DALL·E 3 huwa fil-punt. Jiġbor id-dettalji eżatti ta’ dak li qed titlob, u jagħtik stampa li tkun eqreb ta’ dak li immaġinajt.

Il-parti jibred? DALL·E 3 u Chat GPT issa huma integrati flimkien. Huma jaħdmu flimkien biex jgħinu jirfinaw l-ideat tiegħek. Tispara kunċett, ChatGPT jgħin fl-irfinar tal-pront, u DALL·E 3 jagħtih il-ħajja. Jekk m'intix fan tal-immaġni, tista 'titlob lil ChatGPT biex tweak il-pront u tikseb DALL·E 3 biex terġa' tipprova. Għal ħlas fix-xahar ta '20 $, ikollok aċċess għal GPT-4, DALL·E 3, u ħafna karatteristiċi oħra friski.

Microsoft's bingchat qabad idejh fuq DALL·E 3 anki qabel ma l-ChatGPT ta’ OpenAI, u issa mhux biss l-intrapriżi l-kbar iżda kull min jidħol jilgħab miegħu b’xejn. L-integrazzjoni f'Bing Chat u Bing Image Creator tagħmilha ħafna aktar faċli biex tużaha għal kulħadd.

Iż-Żieda ta' Mudelli ta' Diffużjoni

Fl-aħħar 3 snin, il-viżjoni AI rat iż-żieda ta 'mudelli ta' diffużjoni, li ħadet qabża sinifikanti 'l quddiem, speċjalment fil-ġenerazzjoni tal-immaġni. Qabel il-mudelli tad-diffużjoni, Netwerks Avversarji Ġenerattivi (GANs) kienu t-teknoloġija għall-ġenerazzjoni ta 'immaġini realistiċi.

GANs

GANs

Madankollu, kellhom is-sehem tagħhom ta 'sfidi inkluż il-ħtieġa għal ammonti vasti ta' dejta u qawwa komputazzjonali, li ħafna drabi għamluhom diffiċli biex jimmaniġġaw.

Ikteb diffużjoni mudelli. Dawn ħarġu bħala alternattiva aktar stabbli u effiċjenti għall-GANs. B'differenza mill-GANs, il-mudelli tad-diffużjoni joperaw billi jżidu l-istorbju mad-dejta, u joskurawha sakemm jibqa 'biss ir-randomness. Imbagħad jaħdmu lura biex ireġġgħu lura dan il-proċess, billi jibnu mill-ġdid data sinifikanti mill-istorbju. Dan il-proċess wera li huwa effettiv u li juża inqas riżorsi, u jagħmel il-mudelli tad-diffużjoni suġġett jaħraq fil-komunità tal-IA.

Il-punt ta 'bidla reali wasal madwar l-2020, b'serje ta' karti innovattivi u l-introduzzjoni ta ' CLIP ta' OpenAI teknoloġija, li avvanzat b'mod sinifikanti l-kapaċitajiet tal-mudelli tad-diffużjoni. Dan għamel mudelli ta 'diffużjoni eċċezzjonalment tajbin fis-sinteżi minn test għal immaġni, li jippermettilhom jiġġeneraw immaġini realistiċi minn deskrizzjonijiet testwali. Dawn l-avvanzi ma kinux biss fil-ġenerazzjoni tal-immaġni, iżda wkoll f'oqsma bħal kompożizzjoni tal-mużika u riċerka bijomedika.

Illum, il-mudelli tad-diffużjoni mhumiex biss suġġett ta 'interess akkademiku iżda qed jintużaw f'xenarji prattiċi, tad-dinja reali.

Immudellar Ġenerattiv u Saffi ta' Attenzjoni Awto: DALL-E 3

Wieħed mill-avvanzi kritiċi f'dan il-qasam kien l-evoluzzjoni tal-immudellar ġenerattiv, b'approċċi bbażati fuq kampjunar bħall-immudellar ġenerattiv awtoregressiv u l-proċessi ta 'diffużjoni li jwasslu. Huma ttrasformaw mudelli minn test għal immaġni, li wasslu għal titjib drastiku fil-prestazzjoni. Billi jkissru l-ġenerazzjoni ta 'l-immaġini f'passi diskreti, dawn il-mudelli saru aktar trattabbli u eħfef għan-netwerks newrali biex jitgħallmu.

B'mod parallel, l-użu ta 'saffi ta' awto-attenzjoni kellu rwol kruċjali. Dawn is-saffi, f'munzelli flimkien, għenu fil-ġenerazzjoni ta 'immaġini mingħajr il-ħtieġa għal preġudizzji spazjali impliċiti, kwistjoni komuni bil-konvoluzzjonijiet. Din il-bidla ppermettiet mudelli minn test għal immaġini li jiskalaw u jtejbu b'mod affidabbli, minħabba l-proprjetajiet ta 'skala mifhuma sew tat-trasformaturi.

Sfidi u Soluzzjonijiet fil-Ġenerazzjoni tal-Immaġini

Minkejja dawn l-avvanzi, il-kontrollabbiltà fil-ġenerazzjoni tal-immaġni għadha sfida. Kwistjonijiet bħal segwitu fil-pront, fejn il-mudell jista' ma jaderixxix mill-qrib mat-test input, kienu prevalenti. Biex jiġi indirizzat dan, ġew proposti approċċi ġodda bħat-titjib tal-caption, immirati lejn it-titjib tal-kwalità tat-tqabbil tat-test u l-immaġni fis-settijiet tad-dejta tat-taħriġ.

Titjib tal-Caption: Approċċ ġdid

It-titjib tal-caption jinvolvi l-ġenerazzjoni ta' sottotitoli ta' kwalità aħjar għall-immaġini, li mbagħad jgħin fit-taħriġ ta' mudelli aktar preċiżi minn test għal immaġini. Dan jinkiseb permezz ta 'captioner tal-immaġni robusta li tipproduċi deskrizzjonijiet dettaljati u preċiżi tal-immaġini. Bit-taħriġ fuq dawn it-titoli mtejba DALL-E 3 setgħu jiksbu riżultati notevoli, li jixbħu ħafna ritratti u xogħlijiet tal-arti prodotti mill-bnedmin.

Taħriġ fuq Dejta Sintetika

Il-kunċett ta' taħriġ fuq data sintetika mhuwiex ġdid. Madankollu, il-kontribut uniku hawnhekk huwa fil-ħolqien ta 'sistema ġdida u deskrittiva ta' captioning tal-immaġni. L-impatt tal-użu ta 'captions sintetiċi għat-taħriġ ta' mudelli ġenerattivi kien sostanzjali, li wassal għal titjib fil-kapaċità tal-mudell li jsegwi l-promptijiet b'mod preċiż.

Evalwazzjoni DALL-E 3

Permezz ta 'evalwazzjoni u paraguni multipli ma' mudelli preċedenti bħal DALL-E 2 u Stable Diffusion XL, DALL-E 3 wera prestazzjoni superjuri, speċjalment f'kompiti relatati ma 'segwitu fil-pront.

Tqabbil ta' mudelli minn test għal immaġni fuq evalwazzjonijiet varji

Tqabbil ta' mudelli minn test għal immaġni fuq evalwazzjonijiet varji

L-użu ta' evalwazzjonijiet awtomatizzati u punti ta' riferiment ipprovda evidenza ċara tal-kapaċitajiet tiegħu, li ssolidifika l-pożizzjoni tiegħu bħala ġeneratur ta' l-aktar avvanzat minn test għal immaġni.

DALL-E 3 Prompts u Abbiltajiet

DALL-E 3 joffri approċċ aktar loġiku u raffinat għall-ħolqien ta' viżwali. Hekk kif tiskrollja, tinnota kif DALL-E jagħmel kull immaġini, b'taħlita ta 'eżattezza u immaġinazzjoni li tirresona mal-pront mogħti.

B'differenza mill-predeċessur tagħha, din il-verżjoni aġġornata teċċella fl-arranġament ta 'oġġetti b'mod naturali fi ħdan xena u turi karatteristiċi umani b'mod preċiż, sa l-għadd korrett ta' swaba fuq id. It-titjib jestendi għal dettalji ifjen u issa huma disponibbli f'riżoluzzjoni ogħla, li jiżguraw output aktar realistiku u professjonali.

Il-kapaċitajiet ta' rendering tat-test raw ukoll titjib sostanzjali. Fejn il-verżjonijiet preċedenti ta' DALL-E pproduċew test qarrieqi, DALL-E 3 issa jista' jiġġenera ittri li jinqraw u stilati b'mod professjonali (xi kultant), u anke logos nodfa xi drabi.

Il-fehim tal-mudell ta 'talbiet ta' immaġini kumplessi u sfumati tjieb b'mod sinifikanti. DALL-E 3 issa jista 'jsegwi b'mod preċiż deskrizzjonijiet dettaljati, anke f'xenarji b'elementi multipli u struzzjonijiet speċifiċi, li juri l-kapaċità tiegħu li jipproduċi immaġini koerenti u komposti tajjeb. Ejja nesploraw xi prompts u l-output rispettiv li ksibna:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 immaġini bbażati fuq test prompts

Immaġini DALL-E 3 ibbażati fuq test prompts (Innota li l-poster tax-xellug għandu ortografija ħażina)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 immaġini bbażati fuq test prompts

DALL-E 3 immaġini bbażati fuq test prompts

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 immaġini bbażati fuq test prompts

Immaġini DALL-E 3 ibbażati fuq test prompts (Innota li ż-żewġ posters għandhom ortografija ħażina)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
DALL-E 3 immaġini bbażati fuq test prompts

DALL-E 3 immaġini bbażati fuq test prompts

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
DALL-E 3 immaġini bbażati fuq test prompts

DALL-E 3 immaġini bbażati fuq test prompts

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
DALL-E 3 immaġini bbażati fuq test prompts

DALL-E 3 immaġini bbażati fuq test prompts

Limitazzjonijiet u Riskju ta' DALL-E 3

OpenAI ħa passi sinifikanti biex jiffiltra kontenut espliċitu mid-dejta tat-taħriġ ta 'DALL-E 3, bil-għan li jnaqqas il-preġudizzji u jtejjeb l-output tal-mudell. Dan jinkludi l-applikazzjoni ta' filtri speċifiċi għal kategoriji ta' kontenut sensittiv u reviżjoni tal-limiti għal filtri usa'. Il-munzell ta’ mitigazzjoni jinkludi wkoll diversi saffi ta’ salvagwardji, bħal mekkaniżmi ta’ rifjut f’ChatGPT għal suġġetti sensittivi, klassifikaturi ta’ input fil-pront biex jipprevjenu ksur tal-politika, listi ta’ blokk għal kategoriji speċifiċi ta’ kontenut, u trasformazzjonijiet biex jiżguraw li l-prompts jallinjaw mal-linji gwida.

Minkejja l-avvanzi tiegħu, DALL-E 3 għandu limitazzjonijiet fil-fehim tar-relazzjonijiet spazjali, jirrendi test twil b'mod preċiż, u jiġġenera xbihat speċifiċi. OpenAI jirrikonoxxi dawn l-isfidi u qed jaħdem fuq titjib għal verżjonijiet futuri.

Il-kumpanija qed taħdem ukoll fuq modi kif tiddifferenzja immaġini ġġenerati mill-AI minn dawk magħmula mill-bnedmin, li jirriflettu l-impenn tagħhom għat-trasparenza u l-użu responsabbli tal-AI.

DALL E

DALL E 3

DALL-E 3, l-aħħar verżjoni, se tkun disponibbli f'fażijiet li jibdew minn gruppi speċifiċi ta 'klijenti u aktar tard tespandi għal laboratorji ta' riċerka u servizzi API. Madankollu, data ta 'rilaxx pubbliku b'xejn għadha mhix ikkonfermata.

OpenAI tassew qed jistabbilixxi standard ġdid fil-qasam tal-AI b'DALL-E 3, li jgħaqqad bla xkiel kapaċitajiet tekniċi kumplessi u interfaces faċli għall-utent. L-integrazzjoni ta 'DALL-E 3 fi pjattaformi użati b'mod wiesa' bħal Bing tirrifletti bidla minn applikazzjonijiet speċjalizzati għal forom usa ', aktar aċċessibbli ta' divertiment u utilità.

Il-veru li jbiddel il-logħba fis-snin li ġejjin x'aktarx se jkun il-bilanċ bejn l-innovazzjoni u l-għoti tas-setgħa lill-utent. Kumpaniji li jirnexxu se jkunu dawk li mhux biss jimbuttaw il-konfini ta 'dak li tista' tikseb l-AI, iżda wkoll jipprovdu lill-utenti bl-awtonomija u l-kontroll li jixtiequ. OpenAI, bl-impenn tiegħu għall-IA etika, qed jinnaviga din it-triq bir-reqqa. L-għan huwa ċar: li jinħolqu għodod tal-IA li mhumiex biss b'saħħithom, iżda wkoll affidabbli u inklużivi, li jiżguraw li l-benefiċċji tal-IA jkunu aċċessibbli għal kulħadd.

Għamilt l-aħħar ħames snin ngħaddas ruħi fid-dinja affaxxinanti tal-Machine Learning u t-Tagħlim Profond. Il-passjoni u l-kompetenza tiegħi wassluni biex nikkontribwixxi għal aktar minn 50 proġett ta' inġinerija tas-softwer differenti, b'fokus partikolari fuq AI/ML. Il-kurżità kontinwa tiegħi ġibditni wkoll lejn Natural Language Processing, qasam li jien ħerqan li nesplora aktar.