stomp Een nadere blik op DALL-E 3 van OpenAI - Unite.AI
Verbind je met ons

Snelle techniek

Een nadere blik op DALL-E 3 van OpenAI

mm

gepubliceerd

 on

DALL E 3

In het generatieve AI wereld, op de hoogte blijven van het laatste nieuws is de naam van het spel. En als het gaat om het genereren van afbeeldingen, Stabiele diffusie en halverwege de reis waren het platform waar iedereen het over had – tot nu toe.

OpenAI, ondersteund door technologiegigant Microsoft, geïntroduceerd DALL E 3 op september 20th, 2023.

DALL-E 3 gaat niet alleen over het maken van afbeeldingen; het gaat erom uw ideeën tot leven te brengen, precies zoals u ze zich had voorgesteld. En het beste deel? Het is snel, heel snel. Je hebt een idee, je geeft het door aan DALL-E 3, en boem, je imago is klaar.

In dit artikel gaan we dus diep in op waar DALL-E 3 over gaat. We zullen praten over hoe het werkt, wat het onderscheidt van de rest, en waarom het misschien wel het hulpmiddel is waarvan je niet wist dat je het nodig had. Of je nu een ontwerper, een kunstenaar of gewoon iemand met veel coole ideeën bent, je zult hier graag voor willen blijven werken. Laten we beginnen.

Het nieuwe aan DALL·E 3 is dat de context veel beter wordt weergegeven dan aan DALL·E 2. Eerdere versies misten misschien een aantal details of negeerden hier en daar een paar details, maar DALL·E 3 maakt duidelijk waar het om gaat. Het pikt de exacte details op van wat u vraagt, waardoor u een beeld krijgt dat dichter in de buurt komt van wat u zich had voorgesteld.

Het coole deel? DALL·E 3 en ChatGPT zijn nu samen geïntegreerd. Ze werken samen om uw ideeën te verfijnen. Jij maakt een concept, ChatGPT helpt bij het verfijnen van de prompt, en DALL·E 3 brengt het tot leven. Als u geen fan bent van de afbeelding, kunt u ChatGPT vragen de prompt aan te passen en DALL·E 3 het opnieuw laten proberen. Voor een maandelijks bedrag van $20 krijg je toegang tot GPT-4, DALL·E 3 en vele andere coole functies.

Microsoft's binchatten heeft DALL·E 3 al in handen voordat OpenAI's ChatGPT dat deed, en nu zijn het niet alleen de grote ondernemingen, maar iedereen die er gratis mee mag spelen. De integratie in Bing Chat en Bing Image Creator maakt het voor iedereen veel gemakkelijker te gebruiken.

De opkomst van diffusiemodellen

De afgelopen drie jaar is Vision AI getuige geweest van de opkomst van diffusiemodellen, die een aanzienlijke sprong voorwaarts hebben gemaakt, vooral op het gebied van het genereren van afbeeldingen. Vóór diffusiemodellen was Generatieve tegengestelde netwerken (GAN's) waren de go-to-technologie voor het genereren van realistische beelden.

GAN

GAN

Ze hadden echter ook een aantal uitdagingen, waaronder de behoefte aan enorme hoeveelheden gegevens en rekenkracht, waardoor ze vaak lastig te hanteren waren.

Enter omroep modellen. Ze kwamen naar voren als een stabieler en efficiënter alternatief voor GAN's. In tegenstelling tot GAN's werken diffusiemodellen door ruis aan gegevens toe te voegen, waardoor deze worden verdoezeld totdat er alleen maar willekeur overblijft. Vervolgens werken ze achteruit om dit proces om te keren, waarbij ze betekenisvolle gegevens uit de ruis reconstrueren. Dit proces is effectief gebleken en vergt minder middelen, waardoor verspreidingsmodellen een hot topic zijn geworden in de AI-gemeenschap.

Het echte keerpunt kwam rond 2020, met een reeks innovatieve artikelen en de introductie van CLIP van OpenAI technologie, die de mogelijkheden van diffusiemodellen aanzienlijk heeft verbeterd. Dit maakte diffusiemodellen uitzonderlijk goed in de synthese van tekst naar beeld, waardoor ze realistische afbeeldingen konden genereren uit tekstuele beschrijvingen. Deze doorbraken lagen niet alleen op het gebied van het genereren van afbeeldingen, maar ook op terreinen als muziekcompositie en biomedisch onderzoek.

Tegenwoordig zijn diffusiemodellen niet alleen een onderwerp van academisch belang, maar worden ze ook gebruikt in praktische scenario's uit de echte wereld.

Generatieve modellering en zelfaandachtslagen: DALL-E 3

Een van de cruciale ontwikkelingen op dit gebied is de evolutie van generatieve modellering, waarbij op steekproeven gebaseerde benaderingen zoals autoregressieve generatieve modellering en diffusieprocessen voorop lopen. Ze hebben tekst-naar-beeldmodellen getransformeerd, wat tot drastische prestatieverbeteringen heeft geleid. Door het genereren van afbeeldingen in afzonderlijke stappen op te splitsen, zijn deze modellen hanteerbaarder geworden en voor neurale netwerken gemakkelijker te leren.

Tegelijkertijd heeft het gebruik van lagen voor zelfaandacht een cruciale rol gespeeld. Deze op elkaar gestapelde lagen hebben geholpen bij het genereren van beelden zonder de noodzaak van impliciete ruimtelijke vertekeningen, een veelvoorkomend probleem bij convoluties. Deze verschuiving heeft het mogelijk gemaakt dat tekst-naar-afbeelding-modellen op betrouwbare wijze kunnen worden geschaald en verbeterd, dankzij de goed begrepen schaaleigenschappen van transformatoren.

Uitdagingen en oplossingen bij het genereren van afbeeldingen

Ondanks deze vooruitgang blijft de beheersbaarheid bij het genereren van afbeeldingen een uitdaging. Problemen zoals het volgen van prompts, waarbij het model mogelijk niet nauw aansluit bij de invoertekst, kwamen veel voor. Om dit aan te pakken zijn nieuwe benaderingen voorgesteld, zoals het verbeteren van de ondertiteling, gericht op het verbeteren van de kwaliteit van tekst- en beeldcombinaties in trainingsdatasets.

Verbetering van de ondertiteling: een nieuwe aanpak

Bijschriftverbetering omvat het genereren van bijschriften van betere kwaliteit voor afbeeldingen, wat op zijn beurt helpt bij het trainen van nauwkeurigere tekst-naar-afbeelding-modellen. Dit wordt bereikt door middel van een robuuste beeldondertiteling die gedetailleerde en nauwkeurige beschrijvingen van afbeeldingen produceert. Door te trainen op deze verbeterde ondertiteling heeft DALL-E 3 opmerkelijke resultaten kunnen bereiken, die sterk lijken op door mensen gemaakte foto's en kunstwerken.

Trainen op Synthetische gegevens

Het concept van training op het gebied van synthetische data is niet nieuw. De unieke bijdrage hier ligt echter in de creatie van een nieuw, beschrijvend systeem voor ondertiteling van afbeeldingen. De impact van het gebruik van synthetische ondertitels voor het trainen van generatieve modellen is aanzienlijk geweest, wat heeft geleid tot verbeteringen in het vermogen van het model om aanwijzingen nauwkeurig te volgen.

DALL-E evalueren 3

Door meerdere evaluaties en vergelijkingen met eerdere modellen zoals DALL-E 2 en Stable Diffusion XL heeft DALL-E 3 superieure prestaties aangetoond, vooral bij taken die verband houden met prompt volgen.

Vergelijking van tekst-naar-beeldmodellen op basis van verschillende evaluaties

Vergelijking van tekst-naar-beeldmodellen op basis van verschillende evaluaties

Het gebruik van geautomatiseerde evaluaties en benchmarks heeft duidelijk bewijs geleverd van de capaciteiten van het bedrijf, waardoor zijn positie als geavanceerde tekst-naar-beeldgenerator wordt verstevigd.

DALL-E 3 aanwijzingen en mogelijkheden

DALL-E 3 biedt een meer logische en verfijnde benadering voor het creëren van beelden. Terwijl je er doorheen bladert, zul je merken hoe DALL-E elke afbeelding maakt, met een mix van nauwkeurigheid en verbeeldingskracht die resoneert met de gegeven prompt.

In tegenstelling tot zijn voorganger blinkt deze verbeterde versie uit in het op natuurlijke wijze rangschikken van objecten in een scène en het nauwkeurig weergeven van menselijke kenmerken, tot aan het juiste aantal vingers van een hand. De verbeteringen strekken zich uit tot fijnere details en zijn nu beschikbaar met een hogere resolutie, wat zorgt voor een realistischer en professioneler resultaat.

De mogelijkheden voor tekstweergave zijn ook aanzienlijk verbeterd. Waar eerdere versies van DALL-E wartaal produceerden, kan DALL-E 3 nu (soms) leesbare en professioneel vormgegeven letters genereren, en af ​​en toe zelfs schone logo's.

Het inzicht van het model in complexe en genuanceerde beeldverzoeken is aanzienlijk verbeterd. DALL-E 3 kan nu nauwkeurig gedetailleerde beschrijvingen volgen, zelfs in scenario's met meerdere elementen en specifieke instructies, wat aantoont dat het in staat is om samenhangende en goed samengestelde beelden te produceren. Laten we enkele aanwijzingen en de respectievelijke uitvoer bekijken die we hebben gekregen:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 afbeeldingen gebaseerd op tekstaanwijzingen

DALL-E 3 afbeeldingen gebaseerd op tekstprompts (merk op dat de linkerposter een verkeerde spelling heeft)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 afbeeldingen gebaseerd op tekstaanwijzingen

DALL-E 3 afbeeldingen gebaseerd op tekstaanwijzingen

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 afbeeldingen gebaseerd op tekstaanwijzingen

DALL-E 3 afbeeldingen gebaseerd op tekstprompts (merk op dat beide posters een verkeerde spelling hebben)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
DALL-E 3 afbeeldingen gebaseerd op tekstaanwijzingen

DALL-E 3 afbeeldingen gebaseerd op tekstaanwijzingen

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
DALL-E 3 afbeeldingen gebaseerd op tekstaanwijzingen

DALL-E 3 afbeeldingen gebaseerd op tekstaanwijzingen

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
DALL-E 3 afbeeldingen gebaseerd op tekstaanwijzingen

DALL-E 3 afbeeldingen gebaseerd op tekstaanwijzingen

Beperkingen en risico's van DALL-E 3

OpenAI heeft belangrijke stappen ondernomen om expliciete inhoud uit de trainingsgegevens van DALL-E 3 te filteren, met als doel vooroordelen te verminderen en de output van het model te verbeteren. Dit omvat de toepassing van specifieke filters voor gevoelige inhoudscategorieën en een herziening van drempelwaarden voor bredere filters. De mitigatiestapel bevat ook verschillende beveiligingslagen, zoals weigeringsmechanismen in ChatGPT voor gevoelige onderwerpen, promptinvoerclassificatoren om beleidsschendingen te voorkomen, blokkeerlijsten voor specifieke inhoudscategorieën en transformaties om ervoor te zorgen dat prompts in lijn zijn met de richtlijnen.

Ondanks de verbeteringen heeft DALL-E 3 beperkingen bij het begrijpen van ruimtelijke relaties, het nauwkeurig weergeven van lange tekst en het genereren van specifiek beeldmateriaal. OpenAI erkent deze uitdagingen en werkt aan verbeteringen voor toekomstige versies.

Het bedrijf werkt ook aan manieren om door AI gegenereerde beelden te onderscheiden van door mensen gemaakte beelden, als weerspiegeling van hun toewijding aan transparantie en verantwoord AI-gebruik.

DALL · E

DALL E 3

DALL-E 3, de nieuwste versie, zal gefaseerd beschikbaar zijn, beginnend bij specifieke klantgroepen en later uitbreidend naar onderzoekslaboratoria en API-diensten. Een gratis publieke releasedatum is echter nog niet bevestigd.

OpenAI zet met DALL-E 3 echt een nieuwe standaard op het gebied van AI, waarbij complexe technische mogelijkheden en gebruiksvriendelijke interfaces naadloos worden overbrugd. De integratie van DALL-E 3 in veelgebruikte platforms zoals Bing weerspiegelt een verschuiving van gespecialiseerde toepassingen naar bredere, meer toegankelijke vormen van entertainment en nut.

De echte gamechanger in de komende jaren zal waarschijnlijk de balans zijn tussen innovatie en empowerment van gebruikers. Bedrijven die het goed doen, zullen degenen zijn die niet alleen de grenzen verleggen van wat AI kan bereiken, maar gebruikers ook de autonomie en controle bieden die zij wensen. OpenAI, met zijn toewijding aan ethische AI, bewandelt dit pad zorgvuldig. Het doel is duidelijk: AI-tools creëren die niet alleen krachtig, maar ook betrouwbaar en inclusief zijn, en ervoor zorgen dat de voordelen van AI voor iedereen toegankelijk zijn.

De afgelopen vijf jaar heb ik me verdiept in de fascinerende wereld van Machine Learning en Deep Learning. Door mijn passie en expertise heb ik bijgedragen aan meer dan 50 verschillende software engineering projecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een gebied dat ik graag verder wil verkennen.