ciot Uni3D: Explorarea reprezentării 3D unificate la scară - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Uni3D: Explorarea reprezentării 3D unificate la scară

mm
Actualizat on

Creșterea reprezentărilor de text și imagini a fost un obiectiv major al cercetării în ultimii ani. Evoluțiile și cercetările efectuate în trecutul recent au condus la numeroase revoluții în învățarea și viziunea limbilor străine. Cu toate acestea, în ciuda popularității scalării textului și a reprezentărilor vizuale, scalarea reprezentărilor pentru scene și obiecte 3D nu a fost suficient discutată.

Astăzi, vom discuta despre Uni3D, un model de fundație 3D care își propune să exploreze reprezentări 3D unificate. Cadrul Uni3D folosește un cadru ViT inițializat 2D, preantrenat end-to-end, pentru a alinia caracteristicile de imagine-text cu caracteristicile lor corespunzătoare norului de puncte 3D.

Cadrul Uni3D folosește sarcini pretext și o arhitectură simplă pentru a valorifica abundența de modele 2D preantrenate și modele aliniate cu textul imaginii ca inițializări și, respectiv, ținte. Această abordare eliberează întregul potențial al modelelor și strategiilor 2D pentru a le scala la lumea 3D.

În acest articol, vom aprofunda în 3D viziunea computerului și cadrul Uni3D, explorând conceptele esențiale și arhitectura modelului. Deci, să începem.

Învățarea reprezentării Uni3D și 3D: o introducere

În ultimii câțiva ani, viziunea computerizată a apărut ca unul dintre domeniile cele mai investite în industria AI. În urma progreselor semnificative în cadrul cadrelor de viziune 2D pe computer, dezvoltatorii și-au mutat atenția către viziunea 3D pe computer. Acest domeniu, în special învățarea reprezentării 3D, îmbină aspecte ale graficii pe computer, masina de învățare, viziunea computerizată și matematica pentru a automatiza procesarea și înțelegerea geometriei 3D. Dezvoltarea rapidă a senzorilor 3D precum LiDAR, împreună cu aplicațiile lor pe scară largă în industria AR/VR, a condus la învățarea reprezentării 3D care a câștigat o atenție sporită. Aplicațiile sale potențiale continuă să crească zilnic.

Deși cadrele existente au arătat progrese remarcabile în arhitectura modelului 3D, modelarea orientată pe sarcini și obiectivele de învățare, majoritatea explorează arhitectura 3D la o scară relativ mică, cu date, parametri și scenarii de sarcini limitate. Provocarea de a învăța reprezentări 3D scalabile, care pot fi apoi aplicate aplicațiilor în timp real în diverse medii, rămâne în mare parte neexplorată.

Mergând de-a lungul, în ultimii ani, la scară modele lingvistice mari care sunt pre-instruite a ajutat la revoluționarea prelucrarea limbajului natural domeniu, iar lucrările recente au indicat o traducere a progresului în 2D din limbaj folosind date și scalarea modelelor, ceea ce face loc dezvoltatorilor să încerce și să reîncerce acest succes pentru a învăța o reprezentare 3D care poate fi scalată și transferată în aplicații din lumea reală. 

Uni3D este un cadru 3D de preinstruire scalabil și unificat, dezvoltat cu scopul de a învăța reprezentări 3D la scară largă, care își testează limitele la scara a peste un miliard de parametri, peste 10 milioane de imagini asociate cu peste 70 de milioane de texte și peste un milion de forme 3D. . Figura de mai jos compară precizia zero-shot cu parametrii din cadrul Uni3D. Cadrul Uni3D scalează cu succes reprezentările 3D de la 6 milioane la peste un miliard. 

Cadrul Uni3D constă dintr-un ViT 2D sau Transformator de viziune ca codificator 3D care este apoi pre-antrenat cap la cap pentru a alinia caracteristicile aliniate imagine-text cu caracteristicile norului de puncte 3D. Cadrul Uni3D folosește sarcini pretext și arhitectură simplă pentru a valorifica abundența de modele 2D preantrenate și modele aliniate cu textul imaginii ca inițializare și, respectiv, ținte, eliberând astfel întregul potențial al modelelor 2D și strategiile de scalare a acestora la lumea 3D. Flexibilitatea și scalabilitatea cadrului Uni3D sunt măsurate în termeni de

  1. Scalarea modelului de la 6M la peste un miliard de parametri. 
  2. Inițializare 2D în text supravegheat din vizual învățarea autocontrolată
  3. Model țintă text-imagine scalare de la 150 de milioane la peste un miliard de parametri. 

În cadrul flexibil și unificat oferit de Uni3D, dezvoltatorii observă o creștere coerentă a performanței atunci când vine vorba de scalarea fiecărei componente. Învățarea reprezentării 3D la scară largă beneficiază, de asemenea, enorm de pe urma strategiilor 2D partajabile și de extindere. 

După cum se poate observa în figura de mai jos, cadrul Uni3D afișează o creștere a performanței în comparație cu stadiul tehnicii în setările de câteva și zero. Este de remarcat faptul că cadrul Uni3D returnează un scor de precizie de clasificare zero-shot de peste 88% pe ModelNet, care este la egalitate cu performanța mai multor metode de supraveghere de ultimă generație. 

În plus, cadrul Uni3D oferă, de asemenea, acuratețe și performanță de top atunci când executați alte sarcini 3D reprezentative, cum ar fi segmentarea pieselor și înțelegerea lumii deschise. Cadrul Uni3D își propune să reducă decalajul dintre viziunea 2D și viziunea 3D prin scalarea modelelor fundamentale 3D cu o abordare unificată, dar simplă, de pre-instruire pentru a învăța reprezentări 3D mai robuste într-o gamă largă de sarcini, care ar putea ajuta în cele din urmă la convergența 2D. și viziune 3D într-o gamă largă de modalități.

Uni3D: Lucrări conexe

Cadrul Uni3D se inspiră și învață din evoluțiile făcute de învățarea anterioară a reprezentării 3D și din modelele fundamentale, în special sub diferite modalități. 

Învățarea reprezentării 3D

Metoda de învățare a reprezentării 3D utilizează puncte de nor pentru înțelegerea 3D a obiectului, iar acest domeniu a fost explorat mult de dezvoltatori în trecutul recent și s-a observat că aceste puncte de nor pot fi antrenate în prealabil sub auto-supraveghere folosind anumite Sarcini de pretext 3D, inclusiv modelarea punctelor de mască, auto-reconstrucție și învățare contrastivă. 

Este de remarcat faptul că aceste metode funcționează cu date limitate și adesea nu investighează reprezentările multimodale în 3D din 2D sau NLP. Cu toate acestea, succesul recent al cadrului CLIP care returnează o eficiență ridicată în învățarea conceptelor vizuale din text brut folosind metoda de învățare contrastivă și urmărește în continuare să învețe reprezentări 3D prin alinierea imaginii, textului și caracteristicilor punctului de nor folosind aceeași metodă de învățare contrastivă. 

Modele de fundație

Dezvoltatorii au lucrat în mod exhaustiv la proiectarea modelelor de bază pentru a extinde și a unifica reprezentările multimodale. De exemplu, în domeniul NLP, dezvoltatorii au lucrat la cadre care pot extinde modele de limbaj pre-antrenate și revoluționează încet industria NLP. Mai mult, progresele pot fi observate și în domeniul viziunii 2D, deoarece dezvoltatorii lucrează la cadre care utilizează tehnici de scalare a datelor și modelelor pentru a ajuta la progresul limbajului către modele 2D, deși astfel de cadre sunt dificil de replicat pentru modelele 3D din cauza disponibilitatea limitată a datelor 3D și provocările întâlnite la unificarea și extinderea cadrelor 3D. 

Învățând din cele două domenii de lucru de mai sus, dezvoltatorii au creat cadrul Uni3D, primul model de fundație 3D cu peste un miliard de parametri care utilizează o arhitectură unificată ViT sau Vision Transformer care permite dezvoltatorilor să scaleze modelul Uni3D folosind strategii unificate 3D sau NLP pentru extinderea modelelor. Dezvoltatorii speră că această metodă va permite cadrului Uni3D să reducă decalajul care separă în prezent viziunea 2D și 3D, împreună cu facilitarea convergenței multimodale.

Uni3D: Metodă și arhitectură

Imaginea de mai sus demonstrează prezentarea generală a cadrului Uni3D, un cadru 3D de pre-training scalabil și unificat pentru învățarea reprezentării 3D la scară largă. Dezvoltatorii folosesc peste 70 de milioane de texte și 10 milioane de imagini asociate cu peste un milion de forme 3D pentru a scala cadrul Uni3D la peste un miliard de parametri. Cadrul Uni3D folosește un ViT 2D sau Vision Transformer ca codificator 3D care este apoi antrenat cap la cap pentru a alinia datele text-imagine cu caracteristicile punctului de nor 3D, permițând cadrului Uni3D să ofere eficiența și acuratețea dorite într-un gamă largă de repere. Să aruncăm acum o privire detaliată asupra funcționării cadrului Uni3D. 

Scalarea cadrului Uni3D

Studiile anterioare privind învățarea reprezentării punctelor de cloud s-au concentrat în mod tradițional în mare măsură pe proiectarea unor arhitecturi de model specifice care oferă performanțe mai bune într-o gamă largă de aplicații și funcționează pe o cantitate limitată de date datorită seturilor de date la scară mică. Cu toate acestea, studii recente au încercat să exploreze posibilitatea de a utiliza pre-formarea scalabilă în 3D, dar nu au existat rezultate majore datorită disponibilității limitate a datelor 3D. Pentru a rezolva problema de scalabilitate a cadrelor 3D, cadrul Uni3D folosește puterea unei structuri de transformator vanilie care aproape oglindește un transformator de viziune și poate rezolva problemele de scalare utilizând strategii unificate de scalare 2D sau NLP pentru a scala dimensiunea modelului. 

Prior studies on cloud point representation learning have traditionally focussed heavily on designing particular model architectures that deliver better performance across a wide range of applications, and work on a limited amount of data thanks to small-scale datasets. However, recent studies have tried exploring the possibility of using scalable pre-training in 3D but there were no major outcomes thanks to the availability of limited 3D data. To solve the scalability problem of 3D frameworks, the Uni3D framework leverages the power of a vanilla transformer structure that almost mirrors a Vision Transformer, and can solve the scaling problems by using unified 2D or NLP scaling-up strategies to scale the model size. 

Initializing Uni3D

Another major challenge encountered by prior works involved in the scaling of 3D representations, the difficulties in convergence, and overfitting that were a result of the large size of the models. An effective approach to overcome this hurdle is to pretrain individual 3D backbones with specified 3D pretext tasks, and initialize pretrained parameters. However, the approach is accompanied with high training costs, and it is also difficult to establish a robust initialization for cross-modal learning thanks to the limited amount of 3D data available for training purposes. 

The Uni3D framework leverages a vanilla transformer, the structure of which closely resembles ViT. With this approach, the Uni3D framework can naturally adopt the pre-trained large models with other modalities to initialize the Uni3D framework. 

Multi-Modal Alignment

The Uni3D framework attempts to learn multi-model alignments across image, language, and point clouds by making use of paradigms similar to OpenShape, and ULIP frameworks. Furthermore, to ensure a fair comparison with other methods, the Uni3D framework uses the ensembled 3D dataset by OpenShape for training purposes. This ensembled dataset by OpenShape consists 4 3D datasets: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO. 

Experimente și rezultate

The Uni3D framework is tested across different settings, and across various classification tasks including its performance in zero-shot, and few-shot settings, results around open world understandings, and more. Let’s have a detailed look into these results.

Zero Shot Shape Classification

To evaluate the performance of the Uni3D framework across zero-shot shape classification tasks, the developers conduct experiments across three benchmarks including ModelNet, ScanObjNN, and Objaverse-LVIS benchmark datasets. ModelNet, and ScanObjNN are datasets widely used for classification tasks, and they consist of 15, and 40 object categories respectively, whereas the Objaverse-LVIS benchmark is a cleaned & annotated dataset consisting of over 40,000 objects across 1,100+ categories. The comparison between the frameworks is demonstrated in the image below, and as it can be seen, the Uni3D framework significantly outperforms the previous state of the art frameworks across different settings. 

Few-Shot Linear Probing

In AI, Linear Probing is a common method used to evaluate the representations that a framework or a model learns. To evaluate Uni3D’s linear probing ability, the developers freeze the parameters of the Uni3D framework using the common settings as OpenShape. Following this, the developers train a linear classifier for Uni3D using few-shot class labels. The figure below demonstrates the linear probing ability of different frameworks on the Objaverse-LVIS dataset, and demonstrates the average performance of the model across 10 random seeds. As it can be seen, the Uni3D framework outperforms existing methods significantly under different few-shot settings. 

Open-World Understanding

To evaluate the capability of the Uni3D framework to understand real-world shapes & objects in real-time, developers use ScanNet and CLIP datasets to explore Uni3D’s performance. It is worth noting that the ground truth instant segmentation is available, and the primary motive is to recognize the category of every scene’s individual instant in a zero-shot setting. The results are demonstrated in the image below. As it can be seen, the Uni3D framework delivers exceptional results when performing real-world understanding & recognition. The Uni3D framework outperforms existing frameworks by a significant margin despite never training on real-world datasets. 

Cross-Modal Retrieval

The multi-modal representations learned by the Uni3D framework can allow the framework to retrieve 3D shapes naturally either from texts or images. To retrieve the 3D shapes, the model calculates the cosine similarity between the embeddings of 3D shapes, and the embeddings of a query text prompt or a query image. The framework then makes use of the KNN or K Nearest Neighbour algorithm to generate 3D shapes that resemble the query the most, and the results are demonstrated in the figure below. As it can be seen, the Uni3D framework successfully uses real-world images to retrieve 3D shapes. Furthermore, it is worth noting that training images are only for rendering purposes, and the gap between real-world and training images is substantial. Additionally, the model also takes two input images, and retrieves shapes similar to both input images by using the cosine similarity between the embedding averages of both the images, and their embedded 3D shapes. The results are interesting as they demonstrate Uni3D’s ability to learn diverse 3D representations, and perceive multiple 2D signals. 

In the first column, the framework uses 2 query images to return 3D shapes that are most similar to the query images. In the second column, the framework uses two input images to retrieve 3D shapes that resemble both the input images. Finally, in the final column, the model uses query texts, and returns 3D shapes that resemble the text query the maximum. 

Gânduri finale

In this article, we have talked about Uni3D, a scalable and unified pretraining 3D framework developed with the aim to learn large-scale 3D representations that tests its limits at the scale of over a billion parameters, over 10 million images paired with over 70 million texts, and over a million 3D shapes. The developers of the framework have included a vanilla transformer with its structure equivalent to ViTs that allows them to scale up the Uni3D framework using unified 2D or NLP scaling strategies. Furthermore, the Uni3D framework can leverage a wide array of pre-trained 2D frameworks and 2D strategies to the 3D world. The experimental results have already demonstrated the huge potential of the Uni3D framework as the Uni3D framework returns accurate & efficient results across a wide array of settings, and outperforms existing state-of-the-art frameworks. 

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.