სწრაფი ინჟინერია

უფრო ახლოს OpenAI-ის DALL-E 3-ზე

გამოქვეყნებულია

1 დღის წინ

ოქტომბერი 31, 2023

ამ გენერაციული AI მსოფლიოში, უახლესი ამბების დაცვა არის თამაშის სახელი. და რაც შეეხება სურათების გენერირებას, სტაბილური დიფუზია და შუა მოგზაურობა იყო ის პლატფორმა, რომელზეც ყველა საუბრობდა - აქამდე.

გააცნო OpenAI, რომელსაც მხარს უჭერს ტექნიკური გიგანტი Microsoft DALL E 3 20 წლის 2023 სექტემბერს.

DALL-E 3 არ არის მხოლოდ სურათების შექმნა; ეს არის თქვენი იდეების რეალიზება, ზუსტად ისე, როგორც თქვენ წარმოგიდგენიათ ისინი. და საუკეთესო ნაწილი? ის სწრაფია, ძალიან სწრაფი. თქვენ გაქვთ იდეა, მიაწვდით მას DALL-E 3-ს და ბუმი, თქვენი სურათი მზად არის.

ასე რომ, ამ სტატიაში ჩვენ ღრმად ჩავუღრმავდებით იმას, თუ რა არის DALL-E 3. ჩვენ ვისაუბრებთ იმაზე, თუ როგორ მუშაობს ის, რა განასხვავებს მას დანარჩენისგან და რატომ შეიძლება იყოს ის ინსტრუმენტი, რომელიც არ იცოდით, რომ გჭირდებოდით. ხართ თუ არა დიზაინერი, მხატვარი ან უბრალოდ ბევრი მაგარი იდეის მქონე ადამიანი, თქვენ მოგინდებათ, რომ დარჩეთ ამისთვის. Დავიწყოთ.

რაც ახალია DALL·E 3-ში არის ის, რომ ის კონტექსტს ბევრად უკეთესად იღებს, ვიდრე DALL·E 2. ადრეულმა ვერსიებმა შესაძლოა გამოტოვეს გარკვეული სპეციფიკა ან უგულებელყო რამდენიმე დეტალი აქა-იქ, მაგრამ DALL·E 3 ადგილზეა. ის ასახავს ზუსტ დეტალებს იმის შესახებ, რასაც ითხოვთ, გაძლევს სურათს, რომელიც უფრო ახლოსაა იმასთან, რასაც წარმოიდგენდი.

მაგარი ნაწილია? DALL·E 3 და ჩატი GPT ახლა ერთად არიან ინტეგრირებული. ისინი ერთად მუშაობენ თქვენი იდეების დახვეწაში. თქვენ გადაიღებთ კონცეფციას, ChatGPT გეხმარებათ მოწოდების დაზუსტებაში და DALL·E 3 აცოცხლებს მას. თუ სურათის ფანი არ ხართ, შეგიძლიათ სთხოვოთ ChatGPT-ს, შეცვალოს მოთხოვნა და მიიღოს DALL·E 3 ხელახლა საცდელად. ყოველთვიური გადასახადისთვის 20$, თქვენ მიიღებთ წვდომას GPT-4-ზე, DALL·E 3-ზე და ბევრ სხვა საინტერესო ფუნქციაზე.

Microsoft- ის Bing ჩატი ხელში აიღო DALL·E 3 OpenAI-ის ChatGPT-მდეც კი, და ახლა ეს არ არის მხოლოდ მსხვილი საწარმოები, არამედ ყველა, ვინც მას უფასოდ ეთამაშება. Bing Chat-ში და Bing Image Creator-ში ინტეგრაცია ბევრად აადვილებს მის გამოყენებას ვინმესთვის.

დიფუზიური მოდელების აღზევება

ბოლო 3 წლის განმავლობაში, ხედვის ხელოვნური ინტელექტი მოწმე გახდა დიფუზიური მოდელების აღმავლობის მოწმე, რაც მნიშვნელოვანი ნახტომი იყო წინ, განსაკუთრებით გამოსახულების გენერირებაში. დიფუზიის მოდელებამდე, გენერაციული საპირისპირო ქსელები (GANs) იყო რეალისტური სურათების გენერირების ტექნოლოგია.

განები

თუმცა, მათ ჰქონდათ გარკვეული გამოწვევები, მათ შორის დიდი რაოდენობით მონაცემებისა და გამოთვლითი სიმძლავრის საჭიროება, რაც ხშირად ართულებდა მათ მართვას.

შეიყვანეთ დიფუზიური მოდელები. ისინი გაჩნდნენ, როგორც GAN-ების უფრო სტაბილური და ეფექტური ალტერნატივა. GAN-ისგან განსხვავებით, დიფუზიური მოდელები მოქმედებენ მონაცემების ხმაურის დამატების გზით, დაბინდვამდე, სანამ არ დარჩება მხოლოდ შემთხვევითობა. შემდეგ ისინი მუშაობენ უკუღმა, რათა შეცვალონ ეს პროცესი, აღადგინონ მნიშვნელოვანი მონაცემები ხმაურიდან. ეს პროცესი ეფექტური და ნაკლებად რესურსზე ინტენსიურია, რაც დიფუზიის მოდელებს აქცევს AI საზოგადოებაში მწვავე თემად.

ნამდვილი შემობრუნება დადგა დაახლოებით 2020 წელს, ინოვაციური ნაშრომების სერიით და დანერგვით OpenAI-ის კლიპი ტექნოლოგია, რომელმაც მნიშვნელოვნად გააუმჯობესა დიფუზიური მოდელების შესაძლებლობები. ამან დიფუზიური მოდელები გამორჩეულად კარგი გახადა ტექსტიდან გამოსახულების სინთეზში, რაც მათ საშუალებას აძლევდა შექმნან რეალისტური სურათები ტექსტური აღწერებიდან. ეს გარღვევა იყო არა მხოლოდ გამოსახულების გენერირებაში, არამედ ისეთ სფეროებშიც მუსიკალური კომპოზიცია და ბიოსამედიცინო კვლევა.

დღეს დიფუზიის მოდელები არ არის მხოლოდ აკადემიური ინტერესის თემა, არამედ გამოიყენება პრაქტიკულ, რეალურ სცენარებში.

გენერაციული მოდელირება და თვითყურადღების ფენები: DALL-E 3

წყარო

ამ სფეროში ერთ-ერთი კრიტიკული წინსვლა იყო გენერაციული მოდელირების ევოლუცია, ნიმუშზე დაფუძნებული მიდგომები, როგორიცაა ავტორეგრესიული გენერაციული მოდელირება და დიფუზიური პროცესები, წამყვანი. მათ შეცვალეს ტექსტი გამოსახულების მოდელები, რამაც გამოიწვია შესრულების მკვეთრი გაუმჯობესება. გამოსახულების გენერირების დისკრეტულ საფეხურებად დაყოფით, ეს მოდელები გახდა უფრო დახვეწილი და უფრო ადვილი სწავლა ნერვული ქსელებისთვის.

პარალელურად, გადამწყვეტი როლი ითამაშა თვითყურადღების ფენების გამოყენებამ. ეს ფენები, ერთად დაწყობილი, დაეხმარა სურათების გენერირებას იმპლიციტური სივრცითი მიკერძოების გარეშე, რაც საერთო პრობლემაა კონვოლუციებთან. ამ ცვლილებამ საშუალება მისცა ტექსტიდან გამოსახულების მოდელებს გაფართოება და საიმედოდ გაუმჯობესება, ტრანსფორმატორების კარგად გააზრებული სკალირების თვისებების გამო.

გამოწვევები და გადაწყვეტილებები გამოსახულების გენერაციაში

მიუხედავად ამ მიღწევებისა, გამოსახულების გენერირებაში კონტროლირებადი გამოწვევა რჩება. გავრცელებული იყო ისეთი საკითხები, როგორიცაა სწრაფი დაკვირვება, სადაც მოდელი შეიძლება მჭიდროდ არ ემორჩილებოდეს შეყვანის ტექსტს. ამის გადასაჭრელად, შემოთავაზებულია ახალი მიდგომები, როგორიცაა წარწერის გაუმჯობესება, რომელიც მიზნად ისახავს ტექსტისა და სურათების დაწყვილების ხარისხის გაუმჯობესებას სასწავლო მონაცემთა ნაკრებებში.

წარწერის გაუმჯობესება: ახალი მიდგომა

სუბტიტრების გაუმჯობესება გულისხმობს სურათებისთვის უკეთესი ხარისხის წარწერების შექმნას, რაც თავის მხრივ ხელს უწყობს ტექსტის გამოსახულების უფრო ზუსტი მოდელების მომზადებას. ეს მიიღწევა გამოსახულების ძლიერი წარწერის საშუალებით, რომელიც აწარმოებს სურათების დეტალურ და ზუსტ აღწერას. ამ გაუმჯობესებულ წარწერებზე ტრენინგით DALL-E 3-მა შეძლო მიაღწიოს თვალსაჩინო შედეგებს, რომლებიც ძალიან ჰგავს ადამიანების მიერ შექმნილ ფოტოებსა და ნამუშევრებს.

ტრენინგის შესახებ სინთეტიკური მონაცემები

სინთეზურ მონაცემებზე ტრენინგის კონცეფცია ახალი არ არის. თუმცა, აქ უნიკალური წვლილი არის რომანის, აღწერილობითი გამოსახულების წარწერის სისტემის შექმნა. გენერაციული მოდელების ვარჯიშისთვის სინთეზური წარწერების გამოყენების გავლენა არსებითია, რამაც განაპირობა მოდელის გაუმჯობესების უნარი, ზუსტად დაიცვას მოთხოვნები.

DALL-E 3-ის შეფასება

მრავალჯერადი შეფასებისა და წინა მოდელებთან შედარების გზით, როგორიცაა DALL-E 2 და Stable Diffusion XL, DALL-E 3-მა აჩვენა უმაღლესი შესრულება, განსაკუთრებით დავალებების შესრულებასთან დაკავშირებით.

ტექსტი-სურათის მოდელების შედარება სხვადასხვა შეფასებებზე

ავტომატური შეფასებებისა და ეტალონების გამოყენებამ წარმოადგინა მისი შესაძლებლობების მკაფიო მტკიცებულება, გაამყარა მისი, როგორც უახლესი ტექსტის გამოსახულების გენერატორის პოზიცია.

DALL-E 3 მოთხოვნები და შესაძლებლობები

DALL-E 3 გთავაზობთ უფრო ლოგიკურ და დახვეწილ მიდგომას ვიზუალის შესაქმნელად. გადახვევისას შეამჩნევთ, თუ როგორ აკეთებს DALL-E თითოეულ სურათს სიზუსტისა და ფანტაზიის შერწყმით, რომელიც ეხმიანება მოცემულ მოთხოვნას.

მისი წინამორბედისგან განსხვავებით, ეს განახლებული ვერსია აჯობებს საგნების ბუნებრივად მოწყობას სცენაზე და ადამიანის თვისებების ზუსტად გამოსახვაში, ხელის თითების სწორ რაოდენობამდე. გაუმჯობესებები ვრცელდება უფრო დეტალურ დეტალებზე და ახლა ხელმისაწვდომია უფრო მაღალი გარჩევადობით, რაც უზრუნველყოფს უფრო რეალისტურ და პროფესიონალურ გამომუშავებას.

ტექსტის გადმოცემის შესაძლებლობებმა ასევე მნიშვნელოვანი გაუმჯობესება განიცადა. იქ, სადაც DALL-E-ის წინა ვერსიები წარმოადგენდა უაზრო ტექსტს, DALL-E 3-ს ახლა შეუძლია შექმნას წაკითხული და პროფესიონალურად გაფორმებული ასოები (ზოგჯერ) და ზოგჯერ სუფთა ლოგოებიც კი.

მოდელის გაგება რთული და ნიუანსირებული გამოსახულების მოთხოვნების შესახებ მნიშვნელოვნად გაუმჯობესდა. DALL-E 3-ს ახლა შეუძლია ზუსტად მიჰყვეს დეტალურ აღწერილობებს, სცენარებშიც კი, მრავალი ელემენტითა და კონკრეტული ინსტრუქციებით, რაც აჩვენებს მის უნარს შექმნას თანმიმდევრული და კარგად შედგენილი სურათები. მოდით გამოვიკვლიოთ რამდენიმე მოთხოვნა და შესაბამისი შედეგი, რომელიც მივიღეთ:

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 სურათები ტექსტის მოთხოვნებზე დაფუძნებული (გაითვალისწინეთ, რომ მარცხენა პოსტერს აქვს არასწორი მართლწერა)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 სურათები ტექსტის მოთხოვნებზე დაფუძნებული

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

DALL-E 3 სურათები ტექსტის მოთხოვნებზე დაფუძნებული (გაითვალისწინეთ, რომ ორივე პოსტერს არასწორი მართლწერა აქვს)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

DALL-E 3 სურათები ტექსტის მოთხოვნებზე დაფუძნებული

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

DALL-E 3 სურათები ტექსტის მოთხოვნებზე დაფუძნებული

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

DALL-E 3 სურათები ტექსტის მოთხოვნებზე დაფუძნებული

DALL-E 3-ის შეზღუდვები და რისკი

OpenAI-მ გადადგა მნიშვნელოვანი ნაბიჯები DALL-E 3-ის ტრენინგის მონაცემებიდან აშკარა შინაარსის გასაფილტრად, მიზნად ისახავს შემცირდეს მიკერძოება და გააუმჯობესოს მოდელის შედეგი. ეს მოიცავს სპეციფიკური ფილტრების გამოყენებას სენსიტიური შინაარსის კატეგორიებისთვის და ზღვრების გადახედვას უფრო ფართო ფილტრებისთვის. შერბილების დასტა ასევე მოიცავს დაცვის რამდენიმე ფენას, როგორიცაა უარის თქმის მექანიზმები ChatGPT-ში სენსიტიურ თემებზე, სწრაფი შეყვანის კლასიფიკატორები პოლიტიკის დარღვევის თავიდან ასაცილებლად, ბლოკისტები კონკრეტული შინაარსის კატეგორიებისთვის და ტრანსფორმაციები, რათა უზრუნველყოფილი იყოს მოთხოვნების შესაბამისობა გაიდლაინებთან.

მიღწევების მიუხედავად, DALL-E 3-ს აქვს შეზღუდვები სივრცითი ურთიერთობების გაგებაში, გრძელი ტექსტის ზუსტად გადმოცემასა და კონკრეტული გამოსახულების გენერირებაში. OpenAI აღიარებს ამ გამოწვევებს და მუშაობს მომავალი ვერსიების გაუმჯობესებაზე.

კომპანია ასევე მუშაობს გზებზე, რათა განასხვავოს ხელოვნური ინტელექტის გენერირებული სურათები ადამიანის მიერ შექმნილი სურათებისგან, რაც ასახავს მათ ვალდებულებას გამჭვირვალობისა და პასუხისმგებელი AI გამოყენების მიმართ.

DALL E 3

DALL-E 3, უახლესი ვერსია, ხელმისაწვდომი იქნება ეტაპობრივად, დაწყებული მომხმარებელთა კონკრეტული ჯგუფებით და მოგვიანებით გაფართოვდება კვლევით ლაბორატორიებსა და API სერვისებზე. თუმცა, უფასო საჯარო გამოშვების თარიღი ჯერ არ არის დადასტურებული.

OpenAI ნამდვილად ადგენს ახალ სტანდარტს ხელოვნური ინტელექტის სფეროში DALL-E 3-ით, შეუფერხებლად აკავშირებს კომპლექსურ ტექნიკურ შესაძლებლობებს და მოსახერხებელი ინტერფეისებს. DALL-E 3-ის ინტეგრაცია ფართოდ გამოყენებულ პლატფორმებში, როგორიცაა Bing, ასახავს გადასვლას სპეციალიზებული აპლიკაციებიდან გართობისა და სარგებლობის უფრო ფართო, უფრო ხელმისაწვდომ ფორმებზე.

მომავალი წლების რეალური თამაშის შემცვლელი სავარაუდოდ იქნება ბალანსი ინოვაციასა და მომხმარებლის გაძლიერებას შორის. წარმატებული იქნება კომპანიები, რომლებიც არა მხოლოდ გადალახავენ იმ საზღვრებს, რისი მიღწევაც AI-ს შეუძლია, არამედ მომხმარებლებს უზრუნველყოფენ მათთვის სასურველი ავტონომიითა და კონტროლით. OpenAI, ეთიკური ხელოვნური ინტელექტისადმი ერთგულებით, ამ გზაზე ფრთხილად მიდის. მიზანი ნათელია: შევქმნათ ხელოვნური ინტელექტის ინსტრუმენტები, რომლებიც არა მხოლოდ მძლავრი, არამედ სანდო და ინკლუზიურია, რაც უზრუნველყოფს, რომ AI-ს სარგებელი ყველასთვის ხელმისაწვდომი იყოს.

დაკავშირებული თემები:AI ჩატი gpt DALL-E3 გამოსახულების გენერაცია OpenAI

არ გამოტოვოთ

LLM-ების სწრაფი ჰაკინგი და ბოროტად გამოყენება

აიუშ მიტალი

გასული ხუთი წელი გავატარე მანქანათმცოდნეობის და ღრმა სწავლის მომხიბლავ სამყაროში ჩაძირვაში. ჩემმა გატაცებამ და გამოცდილებამ მიბიძგა, რომ წვლილი შემეტანა 50-ზე მეტ მრავალფეროვან პროგრამულ საინჟინრო პროექტში, განსაკუთრებული აქცენტით AI/ML-ზე. ჩემმა მუდმივმა ცნობისმოყვარეობამ ასევე მიმიზიდა ბუნებრივი ენის დამუშავებისკენ, სფერო, რომლის შემდგომი შესწავლა მსურს.

Unite.AI

უფრო ახლოს OpenAI-ის DALL-E 3-ზე

სწრაფი ინჟინერია

უფრო ახლოს OpenAI-ის DALL-E 3-ზე

სარჩევი

დიფუზიური მოდელების აღზევება

გენერაციული მოდელირება და თვითყურადღების ფენები: DALL-E 3

გამოწვევები და გადაწყვეტილებები გამოსახულების გენერაციაში

წარწერის გაუმჯობესება: ახალი მიდგომა

ტრენინგის შესახებ სინთეტიკური მონაცემები

DALL-E 3-ის შეფასება

DALL-E 3 მოთხოვნები და შესაძლებლობები

DALL-E 3-ის შეზღუდვები და რისკი

ბოლო პოსტები

Unite.AI

უფრო ახლოს OpenAI-ის DALL-E 3-ზე

სარჩევი

დიფუზიური მოდელების აღზევება

გენერაციული მოდელირება და თვითყურადღების ფენები: DALL-E 3

გამოწვევები და გადაწყვეტილებები გამოსახულების გენერაციაში

წარწერის გაუმჯობესება: ახალი მიდგომა

ტრენინგის შესახებ სინთეტიკური მონაცემები

DALL-E 3-ის შეფასება

DALL-E 3 მოთხოვნები და შესაძლებლობები

DALL-E 3-ის შეზღუდვები და რისკი

შეიძლება მოგწონს

ბოლო პოსტები