Stumm Uni3D: Exploring Unified 3D Representation at Scale - Unite.AI
Connect mat eis

Kënschtlech Intelligenz

Uni3D: Unified 3D Representation at Scale

mm
aktualiséiert on

D'Skaléierung vun Representatioune vun Text a Visuals war e grousse Fokus vun der Fuerschung an de leschte Joeren. Entwécklungen a Fuerschung, déi an der rezenter Vergaangenheet duerchgefouert goufen, hunn zu ville Revolutiounen am Sproochléiere a Visioun gefouert. Wéi och ëmmer, trotz der Popularitéit vum Skaléieren Text a visuell Representatioune, ass d'Skaléierung vun Representatioune fir 3D Szenen an Objeten net genuch diskutéiert ginn.

Haut wäerte mir iwwer Uni3D diskutéieren, en 3D Fundamentmodell dee zielt fir vereenegt 3D Representatioune z'entdecken. Den Uni3D Kader beschäftegt en 2D-initialiséierte ViT-Framework, pretrained End-to-End, fir Bild-Text-Features mat hiren entspriechende 3D Punktwolk-Features auszegläichen.

Den Uni3D Kader benotzt Pretext Aufgaben an eng einfach Architektur fir d'Heefegkeet vun pretrained 2D Modeller a Bildtext-ausgeriicht Modeller als Initialisatiounen an Ziler ze notzen, respektiv. Dës Approche entléisst dat vollt Potenzial vun 2D Modeller a Strategien fir se an d'3D Welt ze skaléieren.

An dësem Artikel wäerte mir méi déif an 3D verdéiwen Computer Visioun an den Uni3D Kader, déi wesentlech Konzepter an d'Architektur vum Modell entdecken. Also, loosst eis ufänken.

Uni3D an 3D Representatioun Léieren: Eng Aféierung

An de leschte Joren ass Computervisioun als ee vun de meescht investéiert Domainen an der AI Industrie entstanen. No bedeitende Fortschrëtter an 2D Computer Visioun Kaderen, hunn d'Entwéckler hire Fokus op 3D Computer Visioun verlagert. Dëst Feld, besonnesch 3D Representatioun Léieren, fusionéiert Aspekter vun Computer Grafiken, Maschinn léieren, Computer Visioun, a Mathematik fir d'Veraarbechtung an d'Verstoe vun 3D Geometrie ze automatiséieren. Déi séier Entwécklung vun 3D Sensoren wéi LiDAR, zesumme mat hire verbreeten Uwendungen an der AR/VR Industrie, huet dozou gefouert datt 3D Representatiounsléiere méi Opmierksamkeet kritt. Seng potenziell Uwendungen wuessen weider all Dag.

Och wann existent Kaderen bemierkenswäert Fortschrëtter an der 3D Modellarchitektur, Aufgab-orientéierter Modellerung a Léierziler gewisen hunn, entdecken déi meescht 3D Architektur op enger relativ klenger Skala mat limitéierten Donnéeën, Parameteren an Taskszenarien. D'Erausfuerderung fir skalierbar 3D Representatioune ze léieren, déi dann op Echtzäit Uwendungen a verschiddenen Ëmfeld applizéiert kënne ginn, bleift gréisstendeels onerfuerscht.

Beweegt laanscht, an de leschte Joren, Skaléieren grouss Sproochmodeller déi Pre-trainéiert sinn huet gehollef an der revolutionéieren der natierlech Sproochveraarbechtung Domain, a rezent Wierker hunn eng Iwwersetzung am Fortschrëtt op 2D vun der Sprooch mat Daten a Modellskaléierung uginn, wat d'Entwéckler mécht fir dësen Erfolleg ze probéieren an nei ze probéieren fir eng 3D Representatioun ze léieren, déi skaléiert ka ginn an op Uwendungen an der realer Welt transferéiert ginn. 

Uni3D ass e skalierbare an vereenegt Pretraining 3D Kader entwéckelt mam Zil grouss-Skala 3D Representatioune ze léieren, déi seng Grenzen op der Skala vun iwwer eng Milliard Parameteren testen, iwwer 10 Millioune Biller gepaart mat iwwer 70 Milliounen Texter, an iwwer eng Millioun 3D Formen . D'Figur hei ënnen vergläicht d'Null-Schoss Genauegkeet géint Parameteren am Uni3D Kader. Den Uni3D Kader erfollegt 3D Representatioune vu 6 Milliounen op iwwer eng Milliard. 

Den Uni3D Kader besteet aus engem 2D ViT oder Visioun Transformer wéi den 3D Encoder, deen dann Enn-zu-Enn vir-trainéiert ass fir d'Bild-Text ausgeriicht Feature mat den 3D Punktwolleksfeatures auszegläichen. Den Uni3D Framework benotzt Pretext Aufgaben an einfacher Architektur fir d'Heefegkeet vun pretrained 2D Modeller a Bildtext ausgeriicht Modeller als Initialiséierung an Ziler respektiv ze profitéieren, sou datt de vollen Potenzial vun 2D Modeller entlooss gëtt, a Strategien fir se an d'3D Welt ze skaléieren. D'Flexibilitéit & Skalierbarkeet vum Uni3D Kader gëtt gemooss a punkto

  1. Skaléieren vum Modell vu 6M op iwwer eng Milliard Parameteren. 
  2. 2D Initialiséierung op Text iwwerwaacht vu visuellen selwer iwwerwaacht Léieren
  3. Text-Bild Zilmodell Skala vun 150 Milliounen op iwwer eng Milliard Parameteren. 

Ënnert dem flexibelen an vereenegten Kader, dee vun Uni3D ugebuede gëtt, beobachten d'Entwéckler e kohärent Boost an der Leeschtung wann et drëm geet fir all Komponent ze skaléieren. Déi grouss Skala 3D Representatioun Léieren profitéiert och immens vun den deelbaren 2D a Skala-up Strategien. 

Wéi et an der Figur hei drënner gesi ka ginn, weist den Uni3D Kader e Boost an der Leeschtung am Verglach mat der fréierer Konscht a puer Shot an Null Shot Astellungen. Et ass derwäert ze notéieren datt den Uni3D Framework en Null-Schoss Klassifikatioun Genauegkeet Score vun iwwer 88% op ModelNet zréckkënnt, wat par rapport zu der Leeschtung vu verschiddene modernste Iwwerwaachungsmethoden ass. 

Ausserdeem liwwert den Uni3D Kader och Top Notch Genauegkeet & Leeschtung wann Dir aner representativ 3D Aufgaben ausféiert wéi Deel Segmentatioun, an oppe Welt Verständnis. Den Uni3D Kader zielt fir de Gruef tëscht 2D Visioun an 3D Visioun ze iwwerbrécken andeems 3D Fundamental Modeller mat enger vereenegt awer einfacher Pre-Training Approche skaléiert ginn fir méi robust 3D Representatioune iwwer eng breet Palette vun Aufgaben ze léieren, déi schlussendlech bei der Konvergenz vun 2D hëllefe kënnen. an 3D Visioun iwwer eng breet Palette vu Modalitéiten.

Uni3D: Zesummenhang Aarbecht

Den Uni3D Kader zitt Inspiratioun, a léiert vun den Entwécklungen, déi vum fréiere 3D Representatiounsléieren gemaach goufen, a Fundamental Modeller besonnesch ënner verschiddene Modalitéite. 

3D Representatioun Léieren

D'3D Representatioun Léiermethod benotzt Cloud Points fir 3D Verständnis vum Objet, an dëst Feld gouf vun Entwéckler vill an der rezenter Vergaangenheet exploréiert, an et gouf observéiert datt dës Cloud Points ënner Selbstiwwerwaachung pre-trainéiert kënne ginn mat spezifesche 3D Virwëtz Aufgaben dorënner Mask Punkt Modelléierung, Selbstrekonstruktioun, a kontrastive Léieren. 

Et ass derwäert ze notéieren datt dës Methoden mat limitéierten Donnéeën funktionnéieren, a si ënnersichen dacks net multimodal Representatioune fir 3D vun 2D oder NLP. Wéi och ëmmer, de rezente Succès vum CLIP-Framework, deen héich Effizienz beim Léieren vu visuelle Konzepter aus rauem Text mat der kontrastiver Léiermethod zréckkënnt, a weider probéiert 3D Representatioune ze léieren andeems d'Bild, Text a Cloud Point Features mat der selwechter kontrastiver Léiermethod ausgeriicht ginn. 

Fondatioun Modeller

D'Entwéckler hunn ustrengend geschafft fir Fondatiounsmodeller ze designen fir multimodal Representatioune opzebauen an ze vereenegen. Zum Beispill, am NLP Domain, hunn d'Entwéckler u Kaderen geschafft, déi viraus trainéiert Sproochmodeller opbauen kënnen, an et revolutionéiert lues a lues d'NLP Industrie. Ausserdeem kënne Fortschrëtter och am 2D ​​Visiouns Domain beobachtet ginn well d'Entwéckler u Kaderen schaffen déi Daten- a Modellskaléierungstechnike benotzen fir beim Fortschrëtt vun der Sprooch op 2D Modeller ze hëllefen, obwuel esou Kaderen schwéier si fir 3D Modeller ze replizéieren wéinst der limitéiert Disponibilitéit vun 3D Donnéeën, an d'Erausfuerderunge begéint wann een d'3D Kaderen vereenegt an opskaléiert. 

Andeems Dir vun den uewe genannten zwee Aarbechtsberäicher léiert, hunn d'Entwéckler erstallt den Uni3D Kader, den éischten 3D Fundamentmodell mat iwwer eng Milliard Parameteren, déi eng vereenegt ViT oder Vision Transformer Architektur benotzt, déi d'Entwéckler erlaabt den Uni3D Modell mat vereenegt 3D oder NLP Strategien ze skaléieren fir d'Modeller ze skaléieren. D'Entwéckler hoffen datt dës Method den Uni3D Kader erlaabt d'Lück ze iwwerbrécken déi momentan 2D an 3D Visioun trennt zesumme mat der Multimodal Konvergenz erliichtert.

Uni3D: Method an Architektur

Dat uewe genannte Bild weist de generesche Iwwerbléck vum Uni3D Kader, e skalierbaren an vereenegt Pre-Training 3D Kader fir grouss-Skala 3D Representatioun Léieren. Entwéckler benotzen iwwer 70 Milliounen Texter, an 10 Millioune Biller gepaart mat iwwer eng Millioun 3D Formen fir den Uni3D Kader op iwwer eng Milliard Parameteren ze skaléieren. Den Uni3D Kader benotzt en 2D ViT oder Vision Transformer als 3D Encoder, deen dann end-zu-Enn trainéiert gëtt fir d'Textbilddaten mat den 3D Cloud Point Features auszegläichen, wat dem Uni3D Kader erlaabt déi gewënscht Effizienz & Genauegkeet iwwer eng breet Palette vu Benchmarks. Loosst eis elo en detailléierte Bléck op d'Aarbecht vum Uni3D Kader hunn. 

Skaléieren vum Uni3D Framework

Virdrun Studien iwwer Wollek Punkt Representatioun Léieren hunn traditionell schwéier konzentréiert op Design speziell Modell Architekturen déi besser Leeschtung iwwer eng breet Palette vun Uwendungen liwweren, a schaffen op eng limitéiert Quantitéit vun Daten dank kleng-Skala Datesätz. Wéi och ëmmer, rezent Studien hu probéiert d'Méiglechkeet ze exploréieren fir skalierbar Pre-Training am 3D ze benotzen, awer et goufe keng grouss Resultater dank der Disponibilitéit vu limitéierten 3D Daten. Fir de Skalierbarkeetproblem vun 3D Kaderen ze léisen, benotzt den Uni3D Kader d'Kraaft vun enger Vanill Transformator Struktur déi bal e Vision Transformer spigelt, a kann d'Skaléierungsproblemer léisen andeems een vereenegt 2D oder NLP Skaléierungsstrategien benotzt fir d'Modellgréisst ze skaléieren. 

Prior studies on cloud point representation learning have traditionally focussed heavily on designing particular model architectures that deliver better performance across a wide range of applications, and work on a limited amount of data thanks to small-scale datasets. However, recent studies have tried exploring the possibility of using scalable pre-training in 3D but there were no major outcomes thanks to the availability of limited 3D data. To solve the scalability problem of 3D frameworks, the Uni3D framework leverages the power of a vanilla transformer structure that almost mirrors a Vision Transformer, and can solve the scaling problems by using unified 2D or NLP scaling-up strategies to scale the model size. 

Initializing Uni3D

Another major challenge encountered by prior works involved in the scaling of 3D representations, the difficulties in convergence, and overfitting that were a result of the large size of the models. An effective approach to overcome this hurdle is to pretrain individual 3D backbones with specified 3D pretext tasks, and initialize pretrained parameters. However, the approach is accompanied with high training costs, and it is also difficult to establish a robust initialization for cross-modal learning thanks to the limited amount of 3D data available for training purposes. 

The Uni3D framework leverages a vanilla transformer, the structure of which closely resembles ViT. With this approach, the Uni3D framework can naturally adopt the pre-trained large models with other modalities to initialize the Uni3D framework. 

Multi-Modal Alignment

The Uni3D framework attempts to learn multi-model alignments across image, language, and point clouds by making use of paradigms similar to OpenShape, and ULIP frameworks. Furthermore, to ensure a fair comparison with other methods, the Uni3D framework uses the ensembled 3D dataset by OpenShape for training purposes. This ensembled dataset by OpenShape consists 4 3D datasets: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO. 

Experimenter a Resultater

The Uni3D framework is tested across different settings, and across various classification tasks including its performance in zero-shot, and few-shot settings, results around open world understandings, and more. Let’s have a detailed look into these results.

Zero Shot Shape Classification

To evaluate the performance of the Uni3D framework across zero-shot shape classification tasks, the developers conduct experiments across three benchmarks including ModelNet, ScanObjNN, and Objaverse-LVIS benchmark datasets. ModelNet, and ScanObjNN are datasets widely used for classification tasks, and they consist of 15, and 40 object categories respectively, whereas the Objaverse-LVIS benchmark is a cleaned & annotated dataset consisting of over 40,000 objects across 1,100+ categories. The comparison between the frameworks is demonstrated in the image below, and as it can be seen, the Uni3D framework significantly outperforms the previous state of the art frameworks across different settings. 

Few-Shot Linear Probing

In AI, Linear Probing is a common method used to evaluate the representations that a framework or a model learns. To evaluate Uni3D’s linear probing ability, the developers freeze the parameters of the Uni3D framework using the common settings as OpenShape. Following this, the developers train a linear classifier for Uni3D using few-shot class labels. The figure below demonstrates the linear probing ability of different frameworks on the Objaverse-LVIS dataset, and demonstrates the average performance of the model across 10 random seeds. As it can be seen, the Uni3D framework outperforms existing methods significantly under different few-shot settings. 

Open-World Understanding

To evaluate the capability of the Uni3D framework to understand real-world shapes & objects in real-time, developers use ScanNet and CLIP datasets to explore Uni3D’s performance. It is worth noting that the ground truth instant segmentation is available, and the primary motive is to recognize the category of every scene’s individual instant in a zero-shot setting. The results are demonstrated in the image below. As it can be seen, the Uni3D framework delivers exceptional results when performing real-world understanding & recognition. The Uni3D framework outperforms existing frameworks by a significant margin despite never training on real-world datasets. 

Cross-Modal Retrieval

The multi-modal representations learned by the Uni3D framework can allow the framework to retrieve 3D shapes naturally either from texts or images. To retrieve the 3D shapes, the model calculates the cosine similarity between the embeddings of 3D shapes, and the embeddings of a query text prompt or a query image. The framework then makes use of the KNN or K Nearest Neighbour algorithm to generate 3D shapes that resemble the query the most, and the results are demonstrated in the figure below. As it can be seen, the Uni3D framework successfully uses real-world images to retrieve 3D shapes. Furthermore, it is worth noting that training images are only for rendering purposes, and the gap between real-world and training images is substantial. Additionally, the model also takes two input images, and retrieves shapes similar to both input images by using the cosine similarity between the embedding averages of both the images, and their embedded 3D shapes. The results are interesting as they demonstrate Uni3D’s ability to learn diverse 3D representations, and perceive multiple 2D signals. 

In the first column, the framework uses 2 query images to return 3D shapes that are most similar to the query images. In the second column, the framework uses two input images to retrieve 3D shapes that resemble both the input images. Finally, in the final column, the model uses query texts, and returns 3D shapes that resemble the text query the maximum. 

Finale Schied

In this article, we have talked about Uni3D, a scalable and unified pretraining 3D framework developed with the aim to learn large-scale 3D representations that tests its limits at the scale of over a billion parameters, over 10 million images paired with over 70 million texts, and over a million 3D shapes. The developers of the framework have included a vanilla transformer with its structure equivalent to ViTs that allows them to scale up the Uni3D framework using unified 2D or NLP scaling strategies. Furthermore, the Uni3D framework can leverage a wide array of pre-trained 2D frameworks and 2D strategies to the 3D world. The experimental results have already demonstrated the huge potential of the Uni3D framework as the Uni3D framework returns accurate & efficient results across a wide array of settings, and outperforms existing state-of-the-art frameworks. 

"En Ingenieur vu Beruff, e Schrëftsteller aus Häerz". Kunal ass en technesche Schrëftsteller mat enger déiwer Léift a Verständnis vun AI an ML, gewidmet fir komplex Konzepter an dëse Felder ze vereinfachen duerch seng engagéiert an informativ Dokumentatioun.