stub Uni3D: vieningo 3D vaizdavimo mastu tyrinėjimas – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

Uni3D: vieningo 3D vaizdavimo mastu tyrinėjimas

mm
Atnaujinta on

Pastaraisiais metais pagrindinis dėmesys buvo skiriamas teksto ir vaizdo vaizdų didinimui. Pastaruoju metu atlikti pokyčiai ir tyrimai sukėlė daugybę kalbų mokymosi ir vizijos perversmų. Tačiau nepaisant mastelio keitimo teksto ir vaizdinių vaizdų populiarumo, 3D scenų ir objektų atvaizdų mastelio keitimas nebuvo pakankamai aptartas.

Šiandien aptarsime Uni3D – 3D pagrindo modelį, kuriuo siekiama ištirti vieningus 3D vaizdus. „Uni3D“ sistemoje naudojama 2D inicijuota ViT sistema, iš anksto paruošta iki galo, kad vaizdo ir teksto ypatybės būtų suderintos su atitinkamomis 3D taškų debesies funkcijomis.

„Uni3D“ sistema naudoja preteksto užduotis ir paprastą architektūrą, kad panaudotų daugybę iš anksto paruoštų 2D modelių ir modelių, suderintų su vaizdo tekstu, atitinkamai kaip iniciacijos ir taikiniai. Šis metodas išlaisvina visą 2D modelių ir strategijų potencialą, kad jie būtų pritaikyti 3D pasauliui.

Šiame straipsnyje mes gilinsimės į 3D kompiuterio vizija ir Uni3D sistema, nagrinėjanti pagrindines modelio koncepcijas ir architektūrą. Taigi, pradėkime.

Uni3D ir 3D vaizdavimo mokymasis: įvadas

Per pastaruosius kelerius metus kompiuterinė vizija tapo viena iš daugiausiai investicijų AI pramonėje. Po reikšmingos 2D kompiuterinės vizijos sistemų pažangos kūrėjai sutelkė dėmesį į 3D kompiuterinę viziją. Ši sritis, ypač 3D vaizdavimo mokymasis, sujungia kompiuterinės grafikos aspektus, mašininis mokymasis, kompiuterinis matymas ir matematika, siekiant automatizuoti 3D geometrijos apdorojimą ir supratimą. Spartus 3D jutiklių, tokių kaip LiDAR, vystymasis, taip pat plačiai paplitęs jų pritaikymas AR/VR pramonėje, paskatino 3D vaizdavimo mokymąsi sulaukti daugiau dėmesio. Jo galimos programos kasdien auga.

Nors esamos sistemos parodė didelę pažangą 3D modelių architektūros, į užduotis orientuoto modeliavimo ir mokymosi tikslų srityje, dauguma 3D architektūrą tyrinėja palyginti nedideliu mastu, turėdami ribotus duomenis, parametrus ir užduočių scenarijus. Iššūkis mokytis keičiamo dydžio 3D vaizdų, kuriuos vėliau galima pritaikyti realiojo laiko programoms įvairiose aplinkose, iš esmės lieka neištirtas.

Per pastaruosius kelerius metus plečiasi didelių kalbų modeliai kurie yra iš anksto apmokyti, padėjo padaryti revoliuciją natūralus kalbos apdorojimas domenas, o naujausi darbai parodė, kad vyksta vertimas į 2D iš kalbos naudojant duomenis ir modelio mastelį, todėl kūrėjai gali išbandyti ir iš naujo bandyti šią sėkmę išmokti 3D vaizdavimo, kurio mastelį galima keisti ir perkelti į programas realiame pasaulyje. 

Uni3D yra keičiamo dydžio ir vieninga išankstinio mokymo 3D sistema, sukurta siekiant išmokti didelio masto 3D vaizdus, ​​kurie išbando savo ribas daugiau nei milijardo parametrų skalėje, daugiau nei 10 milijonų vaizdų, susietų su daugiau nei 70 milijonų tekstų ir daugiau nei milijonu 3D formų. . Toliau pateiktame paveikslėlyje lyginamas nulinio kadro tikslumas su parametrais Uni3D sistemoje. „Uni3D“ sistema sėkmingai padidina 3D vaizdus nuo 6 milijonų iki daugiau nei milijardo. 

Uni3D karkasą sudaro 2D ViT arba Regėjimo transformatorius kaip 3D kodavimo priemonė, kuri vėliau yra iš anksto apmokyta iki galo suderinti vaizdo ir teksto išlygiuotas funkcijas su 3D taškų debesies funkcijomis. „Uni3D“ sistemoje naudojamos preteksto užduotys ir paprasta architektūra, kad būtų panaudota gausybė iš anksto paruoštų 2D modelių ir vaizdų sulygiuotų modelių atitinkamai kaip inicijavimas ir taikiniai, taip išlaisvinant visą 2D modelių potencialą ir strategijas, kaip juos pritaikyti 3D pasauliui. „Uni3D“ sistemos lankstumas ir mastelio keitimas matuojamas pagal

  1. Modelio mastelio keitimas nuo 6 milijonų iki daugiau nei milijardo parametrų. 
  2. 2D inicijavimas į tekstą, prižiūrimą iš vaizdo savarankiškas mokymasis
  3. Teksto vaizdo tikslinio modelio mastelis nuo 150 milijonų iki daugiau nei milijardo parametrų. 

Pagal Uni3D siūlomą lanksčią ir vieningą sistemą kūrėjai pastebi nuoseklų našumo padidėjimą, kai reikia keisti kiekvieno komponento mastelį. Didelio masto 3D vaizdavimo mokymasis taip pat turi didžiulę naudą iš bendrinamų 2D ir didinimo strategijų. 

Kaip matyti žemiau esančiame paveikslėlyje, Uni3D sistema rodo didesnį našumą, palyginti su ankstesniais būdais kelių kadrų ir nulinio kadrų nustatymuose. Verta paminėti, kad „Uni3D“ sistema „ModelNet“ sistemoje pateikia nulinį klasifikavimo tikslumo balą, viršijantį 88%, o tai prilygsta kelių pažangiausių priežiūros metodų veikimui. 

Be to, Uni3D sistema taip pat užtikrina aukščiausio lygio tikslumą ir našumą atliekant kitas tipines 3D užduotis, tokias kaip dalių segmentavimas ir atviro pasaulio supratimas. „Uni3D“ sistema siekia užpildyti atotrūkį tarp 2D ir 3D matymo, išplečiant 3D pagrindinius modelius taikant vieningą, bet paprastą išankstinio mokymo metodą, siekiant išmokti tvirtesnių 3D vaizdų įvairiose užduotyse, kurios galiausiai gali padėti suartinti 2D. ir 3D matymas įvairiais būdais.

Uni3D : Susiję darbai

„Uni3D“ sistema semiasi įkvėpimo ir mokosi iš ankstesnio 3D vaizdavimo mokymosi pokyčių ir pagrindinių modelių, ypač naudojant skirtingus būdus. 

3D vaizdavimo mokymasis

3D vaizdavimo mokymosi metodas naudoja debesų taškus, kad suprastų objektą 3D. Šią sritį pastaruoju metu kūrėjai daug tyrinėjo ir pastebėta, kad šie debesų taškai gali būti iš anksto apmokyti savarankiškai prižiūrint naudojant specifines 3D preteksto užduotys, įskaitant kaukės taško modeliavimą, savęs rekonstrukciją ir kontrastinį mokymąsi. 

Verta paminėti, kad šie metodai veikia su ribotais duomenimis ir dažnai netiria daugiarūšio vaizdavimo į 3D iš 2D ar NLP. Tačiau naujausia CLIP sistemos sėkmė, kuri grąžina didelį efektyvumą mokantis vaizdinių sąvokų iš neapdoroto teksto naudojant kontrastinį mokymosi metodą, ir toliau siekia išmokti 3D vaizdų derinant vaizdo, teksto ir debesų taško ypatybes naudojant tą patį kontrastinį mokymosi metodą. 

Pamatų modeliai

Kūrėjai nuodugniai dirbo kurdami pamatų modelius, kad padidintų ir suvienodintų multimodalinius vaizdus. Pavyzdžiui, NLP srityje kūrėjai dirbo su sistemomis, kurios gali išplėsti iš anksto paruoštus kalbos modelius, ir tai pamažu keičia NLP pramonę. Be to, pažangą galima pastebėti ir 2D matymo srityje, nes kūrėjai dirba su sistemomis, naudojančiomis duomenų ir modelių mastelio keitimo metodus, padedančius pereiti prie kalbos į 2D modelius, nors tokias sistemas sunku atkartoti 3D modeliams dėl ribotas 3D duomenų prieinamumas ir iššūkiai, su kuriais susiduriama suvienodinant ir didinant 3D sistemas. 

Mokydamiesi iš pirmiau minėtų dviejų darbo sričių, kūrėjai sukūrė Uni3D karkasas, pirmasis 3D pagrindo modelis su daugiau nei milijardu parametrų, kuriame naudojama vieninga ViT arba Vision Transformer architektūra, leidžianti kūrėjams keisti Uni3D modelio mastelį naudojant vieningas 3D arba NLP strategijas modeliams padidinti. Kūrėjai tikisi, kad šis metodas leis Uni3D sistemai užpildyti atotrūkį, kuris šiuo metu skiria 2D ir 3D regėjimą, ir palengvins daugiarūšio transporto konvergenciją.

Uni3D: metodas ir architektūra

Aukščiau pateiktame paveikslėlyje parodyta bendra Uni3D sistemos apžvalga – keičiamo dydžio ir vieninga išankstinio mokymo 3D sistema, skirta didelio masto 3D vaizdavimo mokymuisi. Kūrėjai naudoja daugiau nei 70 milijonų tekstų ir 10 milijonų vaizdų, susietų su daugiau nei milijonu 3D formų, kad padidintų Uni3D sistemą iki daugiau nei milijardo parametrų. Uni3D sistema naudoja 2D ViT arba Vision Transformer kaip 3D kodavimo įrenginį, kuris vėliau apmokomas teksto vaizdo duomenis suderinti su 3D debesų taško funkcijomis, todėl Uni3D sistema užtikrina norimą efektyvumą ir tikslumą platus etalonų pasirinkimas. Dabar išsamiai pažvelkime į Uni3D sistemos veikimą. 

„Uni3D Framework“ mastelio keitimas

Ankstesniuose debesų taško vaizdavimo mokymosi tyrimuose tradiciškai daug dėmesio buvo skiriama tam tikrų modelių architektūroms, kurios užtikrina geresnį našumą įvairiose programose, ir dirba su ribotu duomenų kiekiu dėl mažo masto duomenų rinkinių. Tačiau naujausiuose tyrimuose buvo bandoma ištirti galimybę naudoti keičiamo dydžio išankstinį mokymą 3D formatu, tačiau didelių rezultatų nebuvo dėl ribotų 3D duomenų. Kad išspręstų 3D struktūrų mastelio keitimo problemą, Uni3D sistema naudoja vanilinio transformatoriaus struktūrą, kuri beveik atspindi Vision Transformerį, ir gali išspręsti mastelio keitimo problemas naudodama vieningas 2D arba NLP mastelio didinimo strategijas modelio dydžiui padidinti. 

Prior studies on cloud point representation learning have traditionally focussed heavily on designing particular model architectures that deliver better performance across a wide range of applications, and work on a limited amount of data thanks to small-scale datasets. However, recent studies have tried exploring the possibility of using scalable pre-training in 3D but there were no major outcomes thanks to the availability of limited 3D data. To solve the scalability problem of 3D frameworks, the Uni3D framework leverages the power of a vanilla transformer structure that almost mirrors a Vision Transformer, and can solve the scaling problems by using unified 2D or NLP scaling-up strategies to scale the model size. 

Initializing Uni3D

Another major challenge encountered by prior works involved in the scaling of 3D representations, the difficulties in convergence, and overfitting that were a result of the large size of the models. An effective approach to overcome this hurdle is to pretrain individual 3D backbones with specified 3D pretext tasks, and initialize pretrained parameters. However, the approach is accompanied with high training costs, and it is also difficult to establish a robust initialization for cross-modal learning thanks to the limited amount of 3D data available for training purposes. 

The Uni3D framework leverages a vanilla transformer, the structure of which closely resembles ViT. With this approach, the Uni3D framework can naturally adopt the pre-trained large models with other modalities to initialize the Uni3D framework. 

Multi-Modal Alignment

The Uni3D framework attempts to learn multi-model alignments across image, language, and point clouds by making use of paradigms similar to OpenShape, and ULIP frameworks. Furthermore, to ensure a fair comparison with other methods, the Uni3D framework uses the ensembled 3D dataset by OpenShape for training purposes. This ensembled dataset by OpenShape consists 4 3D datasets: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO. 

Eksperimentai ir rezultatai

The Uni3D framework is tested across different settings, and across various classification tasks including its performance in zero-shot, and few-shot settings, results around open world understandings, and more. Let’s have a detailed look into these results.

Zero Shot Shape Classification

To evaluate the performance of the Uni3D framework across zero-shot shape classification tasks, the developers conduct experiments across three benchmarks including ModelNet, ScanObjNN, and Objaverse-LVIS benchmark datasets. ModelNet, and ScanObjNN are datasets widely used for classification tasks, and they consist of 15, and 40 object categories respectively, whereas the Objaverse-LVIS benchmark is a cleaned & annotated dataset consisting of over 40,000 objects across 1,100+ categories. The comparison between the frameworks is demonstrated in the image below, and as it can be seen, the Uni3D framework significantly outperforms the previous state of the art frameworks across different settings. 

Few-Shot Linear Probing

In AI, Linear Probing is a common method used to evaluate the representations that a framework or a model learns. To evaluate Uni3D’s linear probing ability, the developers freeze the parameters of the Uni3D framework using the common settings as OpenShape. Following this, the developers train a linear classifier for Uni3D using few-shot class labels. The figure below demonstrates the linear probing ability of different frameworks on the Objaverse-LVIS dataset, and demonstrates the average performance of the model across 10 random seeds. As it can be seen, the Uni3D framework outperforms existing methods significantly under different few-shot settings. 

Open-World Understanding

To evaluate the capability of the Uni3D framework to understand real-world shapes & objects in real-time, developers use ScanNet and CLIP datasets to explore Uni3D’s performance. It is worth noting that the ground truth instant segmentation is available, and the primary motive is to recognize the category of every scene’s individual instant in a zero-shot setting. The results are demonstrated in the image below. As it can be seen, the Uni3D framework delivers exceptional results when performing real-world understanding & recognition. The Uni3D framework outperforms existing frameworks by a significant margin despite never training on real-world datasets. 

Cross-Modal Retrieval

The multi-modal representations learned by the Uni3D framework can allow the framework to retrieve 3D shapes naturally either from texts or images. To retrieve the 3D shapes, the model calculates the cosine similarity between the embeddings of 3D shapes, and the embeddings of a query text prompt or a query image. The framework then makes use of the KNN or K Nearest Neighbour algorithm to generate 3D shapes that resemble the query the most, and the results are demonstrated in the figure below. As it can be seen, the Uni3D framework successfully uses real-world images to retrieve 3D shapes. Furthermore, it is worth noting that training images are only for rendering purposes, and the gap between real-world and training images is substantial. Additionally, the model also takes two input images, and retrieves shapes similar to both input images by using the cosine similarity between the embedding averages of both the images, and their embedded 3D shapes. The results are interesting as they demonstrate Uni3D’s ability to learn diverse 3D representations, and perceive multiple 2D signals. 

In the first column, the framework uses 2 query images to return 3D shapes that are most similar to the query images. In the second column, the framework uses two input images to retrieve 3D shapes that resemble both the input images. Finally, in the final column, the model uses query texts, and returns 3D shapes that resemble the text query the maximum. 

Baigiamosios mintys

In this article, we have talked about Uni3D, a scalable and unified pretraining 3D framework developed with the aim to learn large-scale 3D representations that tests its limits at the scale of over a billion parameters, over 10 million images paired with over 70 million texts, and over a million 3D shapes. The developers of the framework have included a vanilla transformer with its structure equivalent to ViTs that allows them to scale up the Uni3D framework using unified 2D or NLP scaling strategies. Furthermore, the Uni3D framework can leverage a wide array of pre-trained 2D frameworks and 2D strategies to the 3D world. The experimental results have already demonstrated the huge potential of the Uni3D framework as the Uni3D framework returns accurate & efficient results across a wide array of settings, and outperforms existing state-of-the-art frameworks. 

„Iš profesijos inžinierius, iš širdies – rašytojas“. Kunal yra techninis rašytojas, giliai mylintis ir suprantantis dirbtinį intelektą ir ML, siekiantis supaprastinti sudėtingas sąvokas šiose srityse, pasitelkdamas patrauklią ir informatyvią dokumentaciją.