Hurtig teknik

Et nærmere kig på OpenAI's DALL-E 3

Udgivet

1 dag siden

Oktober 31, 2023

I boksen Generativ AI verden, at følge med i det seneste er navnet på spillet. Og når det kommer til at generere billeder, stabil diffusion og midt på rejsen var den platform, alle talte om – indtil nu.

OpenAI, støttet af teknologigiganten Microsoft, introducerede DALL E 3 i september 20th, 2023.

DALL-E 3 handler ikke kun om at skabe billeder; det handler om at føre dine ideer ud i livet, præcis som du forestillede dig dem. Og den bedste del? Det er hurtigt, sådan rigtig hurtigt. Du har en idé, du fodrer den til DALL-E 3, og boom, dit billede er klar.

Så i denne artikel vil vi dykke dybt ned i, hvad DALL-E 3 handler om. Vi vil tale om, hvordan det virker, hvad der adskiller det fra resten, og hvorfor det måske bare er det værktøj, du ikke vidste, du havde brug for. Uanset om du er designer, kunstner eller bare en person med en masse fede ideer, vil du gerne blive ved med dette. Lad os komme igang.

Det nye med DALL·E 3 er, at det får kontekst meget bedre end DALL·E 2. Tidligere versioner kunne have gået glip af nogle detaljer eller ignoreret nogle få detaljer her og der, men DALL·E 3 er på rette vej. Den opfanger de nøjagtige detaljer om det, du beder om, og giver dig et billede, der er tættere på det, du forestillede dig.

Den fede del? DALL·E 3 og ChatGPT er nu integreret sammen. De arbejder sammen for at hjælpe med at forfine dine ideer. Du skyder et koncept, ChatGPT hjælper med at finjustere prompten, og DALL·E 3 bringer det til live. Hvis du ikke er fan af billedet, kan du bede ChatGPT om at tilpasse prompten og få DALL·E 3 til at prøve igen. For en månedlig afgift på 20$ får du adgang til GPT-4, DALL·E 3 og mange andre fede funktioner.

Microsofts bingchat fik fingrene i DALL·E 3, selv før OpenAIs ChatGPT gjorde det, og nu er det ikke kun de store virksomheder, men alle, der kommer til at lege med det gratis. Integrationen i Bing Chat og Bing Image Creator gør det meget nemmere at bruge for alle.

Fremkomsten af diffusionsmodeller

I de sidste 3 år har vision AI været vidne til fremkomsten af diffusionsmodeller, hvilket tager et betydeligt spring fremad, især inden for billedgenerering. Før diffusionsmodeller, Generative Adversarial Networks (GAN'er) var go-to-teknologien til at generere realistiske billeder.

GANer

De havde dog deres del af udfordringer, herunder behovet for store mængder data og regnekraft, hvilket ofte gjorde dem vanskelige at håndtere.

Indtast diffusion modeller. De opstod som et mere stabilt og effektivt alternativ til GAN'er. I modsætning til GAN'er fungerer diffusionsmodeller ved at tilføje støj til data og skjule dem, indtil der kun er tilfældighed tilbage. De arbejder derefter baglæns for at vende denne proces og rekonstruerer meningsfulde data fra støjen. Denne proces har vist sig at være effektiv og mindre ressourcekrævende, hvilket gør diffusionsmodeller til et varmt emne i AI-samfundet.

Det virkelige vendepunkt kom omkring 2020, med en række innovative papirer og introduktionen af OpenAI's CLIP teknologi, som markant avancerede diffusionsmodellernes muligheder. Dette gjorde diffusionsmodeller exceptionelt gode til tekst-til-billede syntese, hvilket gjorde det muligt for dem at generere realistiske billeder ud fra tekstbeskrivelser. Disse gennembrud var ikke kun inden for billedgenerering, men også inden for områder som musik komposition biomedicinsk forskning.

I dag er diffusionsmodeller ikke kun et emne af akademisk interesse, men bliver brugt i praktiske scenarier i den virkelige verden.

Generativ modellering og selvopmærksomhedslag: DALL-E 3

Kilde

Et af de kritiske fremskridt på dette område har været udviklingen af generativ modellering, med prøveudtagningsbaserede tilgange som autoregressiv generativ modellering og diffusionsprocesser førende. De har transformeret tekst-til-billede-modeller, hvilket har ført til drastiske ydeevneforbedringer. Ved at opdele billedgenerering i diskrete trin er disse modeller blevet mere håndterbare og nemmere for neurale netværk at lære.

Sideløbende har brugen af selvopmærksomhedslag spillet en afgørende rolle. Disse lag, stablet sammen, har hjulpet med at generere billeder uden behov for implicitte rumlige skævheder, et almindeligt problem med foldninger. Dette skift har gjort det muligt for tekst-til-billede-modeller at skalere og forbedre pålideligt på grund af transformatorernes velforståede skaleringsegenskaber.

Udfordringer og løsninger i billedgenerering

På trods af disse fremskridt er kontrollerbarhed i billedgenerering stadig en udfordring. Problemer som f.eks. prompt-følgning, hvor modellen muligvis ikke overholder inputteksten, har været fremherskende. For at imødegå dette er nye tilgange såsom forbedring af billedtekster blevet foreslået, rettet mod at forbedre kvaliteten af tekst- og billedparringer i træningsdatasæt.

Billedtekst Forbedring: En ny tilgang

Forbedring af billedtekster involverer generering af billedtekster af bedre kvalitet til billeder, hvilket igen hjælper med at træne mere nøjagtige tekst-til-billede-modeller. Dette opnås gennem en robust billedtekster, der producerer detaljerede og nøjagtige beskrivelser af billeder. Ved at træne på disse forbedrede billedtekster har DALL-E 3 været i stand til at opnå bemærkelsesværdige resultater, der ligner fotografier og kunstværker produceret af mennesker.

Træning på Syntetiske data

Konceptet med træning i syntetiske data er ikke nyt. Det unikke bidrag her er imidlertid skabelsen af et nyt, beskrivende billedtekstsystem. Virkningen af at bruge syntetiske billedtekster til træning af generative modeller har været betydelig, hvilket har ført til forbedringer i modellens evne til at følge prompts nøjagtigt.

Evaluering af DALL-E 3

Gennem flere evalueringer og sammenligninger med tidligere modeller som DALL-E 2 og Stable Diffusion XL, har DALL-E 3 vist overlegen ydeevne, især i opgaver relateret til hurtig efterfølgelse.

Sammenligning af tekst-til-billede modeller på forskellige evalueringer

Brugen af automatiserede evalueringer og benchmarks har givet klare beviser for dens muligheder, hvilket har styrket dens position som en avanceret tekst-til-billede-generator.

DALL-E 3 prompter og evner

DALL-E 3 tilbyder en mere logisk og raffineret tilgang til at skabe billeder. Når du ruller igennem, vil du bemærke, hvordan DALL-E fremstiller hvert billede med en blanding af nøjagtighed og fantasi, der giver genlyd med den givne prompt.

I modsætning til sin forgænger udmærker denne opgraderede version sig ved at arrangere objekter naturligt i en scene og afbilde menneskelige træk nøjagtigt, ned til det korrekte antal fingre på en hånd. Forbedringerne strækker sig til finere detaljer og er nu tilgængelige i en højere opløsning, hvilket sikrer et mere realistisk og professionelt output.

Tekstgengivelsesmulighederne er også blevet forbedret betydeligt. Hvor tidligere versioner af DALL-E producerede vrøvl tekst, kan DALL-E 3 nu generere læselige og professionelt stilede bogstaver (nogle gange) og endda rene logoer af og til.

Modellens forståelse af komplekse og nuancerede billedanmodninger er blevet væsentligt forbedret. DALL-E 3 kan nu nøjagtigt følge detaljerede beskrivelser, selv i scenarier med flere elementer og specifikke instruktioner, hvilket viser dens evne til at producere sammenhængende og velkomponerede billeder. Lad os udforske nogle prompter og det respektive output, vi fik:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 billeder baseret på tekstprompter (Bemærk, at venstre plakat er stavet forkert)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 billeder baseret på tekstprompter

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 billeder baseret på tekstprompter (Bemærk, at begge plakater har stavefejl)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

DALL-E 3 billeder baseret på tekstprompter

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

DALL-E 3 billeder baseret på tekstprompter

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

DALL-E 3 billeder baseret på tekstprompter

Begrænsninger og risiko ved DALL-E 3

OpenAI har taget væsentlige skridt til at filtrere eksplicit indhold fra DALL-E 3's træningsdata med det formål at reducere skævheder og forbedre modellens output. Dette omfatter anvendelse af specifikke filtre for følsomme indholdskategorier og en revision af tærskler for bredere filtre. Afhjælpningsstakken inkluderer også flere lag af sikkerhedsforanstaltninger, såsom afvisningsmekanismer i ChatGPT for følsomme emner, prompt-inputklassifikatorer for at forhindre politikovertrædelser, blokeringslister for specifikke indholdskategorier og transformationer for at sikre, at prompter stemmer overens med retningslinjerne.

På trods af sine fremskridt har DALL-E 3 begrænsninger i forståelsen af rumlige forhold, gengivelse af lang tekst nøjagtigt og generering af specifikke billeder. OpenAI anerkender disse udfordringer og arbejder på forbedringer til fremtidige versioner.

Virksomheden arbejder også på måder at differentiere AI-genererede billeder fra billeder lavet af mennesker, hvilket afspejler deres engagement i gennemsigtighed og ansvarlig brug af AI.

DALL E 3

DALL-E 3, den seneste version, vil være tilgængelig i faser, startende med specifikke kundegrupper og senere udvidet til forskningslaboratorier og API-tjenester. En gratis offentlig udgivelsesdato er dog ikke bekræftet endnu.

OpenAI sætter virkelig en ny standard inden for kunstig intelligens med DALL-E 3, der problemfrit bygger bro over komplekse tekniske muligheder og brugervenlige grænseflader. Integrationen af DALL-E 3 i udbredte platforme som Bing afspejler et skift fra specialiserede applikationer til bredere, mere tilgængelige former for underholdning og nytte.

Den virkelige game-changer i de kommende år vil sandsynligvis være balancen mellem innovation og brugerindflydelse. Virksomheder, der trives, vil være dem, der ikke kun flytter grænserne for, hvad AI kan opnå, men også giver brugerne den autonomi og kontrol, de ønsker. OpenAI, med sit engagement i etisk kunstig intelligens, navigerer denne vej omhyggeligt. Målet er klart: at skabe AI-værktøjer, der ikke bare er kraftfulde, men også pålidelige og inkluderende, hvilket sikrer, at fordelene ved AI er tilgængelige for alle.

Gå ikke glip af

Hurtig hacking og misbrug af LLM'er

Aayush Mittal

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.

Unite.AI

Et nærmere kig på OpenAI's DALL-E 3

Hurtig teknik

Et nærmere kig på OpenAI's DALL-E 3

Indholdsfortegnelse

Fremkomsten af diffusionsmodeller

Generativ modellering og selvopmærksomhedslag: DALL-E 3

Udfordringer og løsninger i billedgenerering

Billedtekst Forbedring: En ny tilgang

Træning på Syntetiske data

Evaluering af DALL-E 3

DALL-E 3 prompter og evner

Begrænsninger og risiko ved DALL-E 3

Seneste indlæg

Unite.AI

Et nærmere kig på OpenAI's DALL-E 3

Indholdsfortegnelse

Fremkomsten af ​​diffusionsmodeller

Generativ modellering og selvopmærksomhedslag: DALL-E 3

Udfordringer og løsninger i billedgenerering

Billedtekst Forbedring: En ny tilgang

Træning på Syntetiske data

Evaluering af DALL-E 3

DALL-E 3 prompter og evner

Begrænsninger og risiko ved DALL-E 3

Du kan godt lide

Seneste indlæg

Fremkomsten af diffusionsmodeller