talon Uni3D : Explorer la représentation 3D unifiée à grande échelle - Unite.AI
Suivez nous sur

Intelligence artificielle

Uni3D : explorer la représentation 3D unifiée à grande échelle

mm
Le kit de préparation mis à jour on

La mise à l’échelle des représentations de texte et de visuels a été un axe de recherche majeur ces dernières années. Les développements et les recherches menés dans un passé récent ont conduit à de nombreuses révolutions dans l’apprentissage et la vision des langues. Cependant, malgré la popularité de la mise à l'échelle du texte et des représentations visuelles, la mise à l'échelle des représentations des scènes et des objets 3D n'a pas été suffisamment discutée.

Aujourd'hui, nous allons discuter d'Uni3D, un modèle de base 3D qui vise à explorer des représentations 3D unifiées. Le framework Uni3D utilise un framework ViT initialisé en 2D, pré-entraîné de bout en bout, pour aligner les fonctionnalités image-texte avec leurs fonctionnalités de nuage de points 3D correspondantes.

Le framework Uni3D utilise des tâches prétextes et une architecture simple pour tirer parti de l'abondance de modèles 2D pré-entraînés et de modèles alignés image-texte comme initialisations et cibles, respectivement. Cette approche libère tout le potentiel des modèles 2D et des stratégies pour les adapter au monde 3D.

Dans cet article, nous approfondirons la 3D vision par ordinateur et le framework Uni3D, explorant les concepts essentiels et l'architecture du modèle. Alors, commençons.

Apprentissage Uni3D et représentation 3D : une introduction

Au cours des dernières années, la vision par ordinateur est devenue l’un des domaines les plus investis dans l’industrie de l’IA. Suite aux progrès significatifs des cadres de vision par ordinateur 2D, les développeurs se sont concentrés sur la vision par ordinateur 3D. Ce domaine, notamment l'apprentissage des représentations 3D, fusionne des aspects de l'infographie, machine learning, la vision par ordinateur et les mathématiques pour automatiser le traitement et la compréhension de la géométrie 3D. Le développement rapide des capteurs 3D comme le LiDAR, ainsi que leurs applications généralisées dans l’industrie AR/VR, ont permis à l’apprentissage de la représentation 3D de susciter une attention accrue. Ses applications potentielles continuent de croître chaque jour.

Bien que les frameworks existants aient montré des progrès remarquables en matière d'architecture de modèles 3D, de modélisation orientée tâches et d'objectifs d'apprentissage, la plupart explorent l'architecture 3D à une échelle relativement petite avec des données, des paramètres et des scénarios de tâches limités. Le défi de l’apprentissage de représentations 3D évolutives, qui peuvent ensuite être appliquées à des applications en temps réel dans divers environnements, reste largement inexploré.

Au cours des dernières années, la mise à l'échelle grands modèles de langage qui sont pré-formés a contribué à révolutionner le traitement du langage naturel domaine, et des travaux récents ont indiqué une traduction des progrès vers la 2D à partir du langage utilisant la mise à l'échelle des données et des modèles, ce qui permet aux développeurs d'essayer et de réessayer ce succès pour apprendre une représentation 3D qui peut être mise à l'échelle et transférée vers des applications dans le monde réel. 

Uni3D est un framework 3D de pré-entraînement évolutif et unifié développé dans le but d'apprendre des représentations 3D à grande échelle qui teste ses limites à l'échelle de plus d'un milliard de paramètres, de plus de 10 millions d'images associées à plus de 70 millions de textes et de plus d'un million de formes 3D. . La figure ci-dessous compare la précision du tir zéro aux paramètres du framework Uni3D. Le framework Uni3D fait évoluer avec succès les représentations 3D de 6 millions à plus d'un milliard. 

Le framework Uni3D se compose d'un ViT 2D ou Transformateur de vision en tant qu'encodeur 3D qui est ensuite pré-entraîné de bout en bout pour aligner les fonctionnalités alignées sur l'image et le texte avec les fonctionnalités du nuage de points 3D. Le framework Uni3D utilise des tâches prétextes et une architecture simple pour tirer parti de l'abondance de modèles 2D pré-entraînés et de modèles alignés sur le texte image comme initialisation et cibles respectivement, libérant ainsi tout le potentiel des modèles 2D et des stratégies pour les adapter au monde 3D. La flexibilité et l'évolutivité du framework Uni3D se mesurent en termes de

  1. Mise à l'échelle du modèle de 6M à plus d’un milliard de paramètres. 
  2. Initialisation 2D au texte supervisée à partir du visuel apprentissage auto-supervisé
  3. Modèle cible texte-image évoluant de 150 millions à plus d’un milliard de paramètres. 

Dans le cadre flexible et unifié offert par Uni3D, les développeurs observent une augmentation cohérente des performances en matière de mise à l'échelle de chaque composant. L’apprentissage de la représentation 3D à grande échelle bénéficie également énormément des stratégies 2D partageables et de mise à l’échelle. 

Comme le montre la figure ci-dessous, le framework Uni3D affiche une amélioration des performances par rapport à l'art antérieur dans les paramètres à quelques prises de vue et à zéro prise de vue. Il convient de noter que le framework Uni3D renvoie un score de précision de classification zéro-shot de plus de 88 % sur ModelNet, ce qui est comparable aux performances de plusieurs méthodes de supervision de pointe. 

De plus, le framework Uni3D offre également une précision et des performances de premier ordre lors de l'exécution d'autres tâches 3D représentatives telles que la segmentation de pièces et la compréhension du monde ouvert. Le framework Uni3D vise à combler le fossé entre la vision 2D et la vision 3D en mettant à l'échelle les modèles fondamentaux 3D avec une approche de pré-formation unifiée mais simple pour apprendre des représentations 3D plus robustes à travers un large éventail de tâches, ce qui pourrait à terme contribuer à la convergence de la 2D. et la vision 3D dans un large éventail de modalités.

Uni3D : travaux connexes

Le framework Uni3D s'inspire et apprend des développements réalisés par les précédents apprentissages de représentations 3D et des modèles fondamentaux, notamment sous différentes modalités. 

Apprentissage de la représentation 3D

La méthode d'apprentissage de la représentation 3D utilise des points de trouble pour la compréhension 3D de l'objet, et ce domaine a été beaucoup exploré par les développeurs dans un passé récent, et il a été observé que ces points de trouble peuvent être pré-entraînés sous auto-supervision en utilisant des Tâches de prétexte 3D comprenant la modélisation de points de masque, l'auto-reconstruction et l'apprentissage contrastif. 

Il convient de noter que ces méthodes fonctionnent avec des données limitées et qu’elles n’étudient souvent pas les représentations multimodales en 3D à partir de la 2D ou de la PNL. Cependant, le récent succès du framework CLIP qui renvoie une grande efficacité dans l'apprentissage de concepts visuels à partir de texte brut en utilisant la méthode d'apprentissage contrastif, et cherche en outre à apprendre des représentations 3D en alignant les caractéristiques de l'image, du texte et des points de nuage en utilisant la même méthode d'apprentissage contrastif. 

Modèles de fondation

Les développeurs ont travaillé de manière exhaustive sur la conception de modèles de base pour étendre et unifier les représentations multimodales. Par exemple, dans le domaine du NLP, les développeurs ont travaillé sur des frameworks capables de faire évoluer les modèles de langage pré-entraînés, et cela révolutionne lentement le secteur du NLP. En outre, des progrès peuvent également être observés dans le domaine de la vision 2D, car les développeurs travaillent sur des frameworks qui utilisent des techniques de mise à l'échelle des données et des modèles pour faciliter la progression du langage vers les modèles 2D, bien que de tels frameworks soient difficiles à reproduire pour les modèles 3D en raison de la disponibilité limitée des données 3D et défis rencontrés lors de l'unification et de la mise à l'échelle des cadres 3D. 

En apprenant des deux domaines de travail ci-dessus, les développeurs ont créé le framework Uni3D, le premier modèle de base 3D avec plus d'un milliard de paramètres qui utilise une architecture unifiée ViT ou Vision Transformer qui permet aux développeurs de mettre à l'échelle le modèle Uni3D à l'aide de stratégies 3D ou NLP unifiées pour mettre à l'échelle les modèles. Les développeurs espèrent que cette méthode permettra au framework Uni3D de combler le fossé qui sépare actuellement la vision 2D et 3D tout en facilitant la convergence multimodale.

Uni3D : Méthode et Architecture

L'image ci-dessus montre un aperçu générique du framework Uni3D, un framework 3D de pré-formation évolutif et unifié pour l'apprentissage des représentations 3D à grande échelle. Les développeurs utilisent plus de 70 millions de textes et 10 millions d'images associés à plus d'un million de formes 3D pour adapter le framework Uni3D à plus d'un milliard de paramètres. Le framework Uni3D utilise un ViT 2D ou Vision Transformer comme encodeur 3D qui est ensuite entraîné de bout en bout pour aligner les données texte-image avec les fonctionnalités de point de nuage 3D, permettant au framework Uni3D de fournir l'efficacité et la précision souhaitées sur un large éventail de repères. Voyons maintenant en détail le fonctionnement du framework Uni3D. 

Mise à l'échelle du framework Uni3D

Les études antérieures sur l'apprentissage de la représentation des points de nuage se sont traditionnellement concentrées sur la conception d'architectures de modèles particulières qui offrent de meilleures performances sur un large éventail d'applications et fonctionnent sur une quantité limitée de données grâce à des ensembles de données à petite échelle. Cependant, des études récentes ont tenté d’explorer la possibilité d’utiliser une pré-formation évolutive en 3D, mais n’ont obtenu aucun résultat majeur grâce à la disponibilité de données 3D limitées. Pour résoudre le problème d'évolutivité des frameworks 3D, le framework Uni3D exploite la puissance d'une structure de transformateur vanille qui reflète presque un Vision Transformer, et peut résoudre les problèmes de mise à l'échelle en utilisant des stratégies de mise à l'échelle unifiées 2D ou NLP pour mettre à l'échelle la taille du modèle. 

Prior studies on cloud point representation learning have traditionally focussed heavily on designing particular model architectures that deliver better performance across a wide range of applications, and work on a limited amount of data thanks to small-scale datasets. However, recent studies have tried exploring the possibility of using scalable pre-training in 3D but there were no major outcomes thanks to the availability of limited 3D data. To solve the scalability problem of 3D frameworks, the Uni3D framework leverages the power of a vanilla transformer structure that almost mirrors a Vision Transformer, and can solve the scaling problems by using unified 2D or NLP scaling-up strategies to scale the model size. 

Initializing Uni3D

Another major challenge encountered by prior works involved in the scaling of 3D representations, the difficulties in convergence, and overfitting that were a result of the large size of the models. An effective approach to overcome this hurdle is to pretrain individual 3D backbones with specified 3D pretext tasks, and initialize pretrained parameters. However, the approach is accompanied with high training costs, and it is also difficult to establish a robust initialization for cross-modal learning thanks to the limited amount of 3D data available for training purposes. 

The Uni3D framework leverages a vanilla transformer, the structure of which closely resembles ViT. With this approach, the Uni3D framework can naturally adopt the pre-trained large models with other modalities to initialize the Uni3D framework. 

Multi-Modal Alignment

The Uni3D framework attempts to learn multi-model alignments across image, language, and point clouds by making use of paradigms similar to OpenShape, and ULIP frameworks. Furthermore, to ensure a fair comparison with other methods, the Uni3D framework uses the ensembled 3D dataset by OpenShape for training purposes. This ensembled dataset by OpenShape consists 4 3D datasets: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO 

Expériences et résultats

The Uni3D framework is tested across different settings, and across various classification tasks including its performance in zero-shot, and few-shot settings, results around open world understandings, and more. Let’s have a detailed look into these results.

Zero Shot Shape Classification

To evaluate the performance of the Uni3D framework across zero-shot shape classification tasks, the developers conduct experiments across three benchmarks including ModelNet, ScanObjNN, and Objaverse-LVIS benchmark datasets. ModelNet, and ScanObjNN are datasets widely used for classification tasks, and they consist of 15, and 40 object categories respectively, whereas the Objaverse-LVIS benchmark is a cleaned & annotated dataset consisting of over 40,000 objects across 1,100+ categories. The comparison between the frameworks is demonstrated in the image below, and as it can be seen, the Uni3D framework significantly outperforms the previous state of the art frameworks across different settings. 

Few-Shot Linear Probing

In AI, Linear Probing is a common method used to evaluate the representations that a framework or a model learns. To evaluate Uni3D’s linear probing ability, the developers freeze the parameters of the Uni3D framework using the common settings as OpenShape. Following this, the developers train a linear classifier for Uni3D using few-shot class labels. The figure below demonstrates the linear probing ability of different frameworks on the Objaverse-LVIS dataset, and demonstrates the average performance of the model across 10 random seeds. As it can be seen, the Uni3D framework outperforms existing methods significantly under different few-shot settings. 

Open-World Understanding

To evaluate the capability of the Uni3D framework to understand real-world shapes & objects in real-time, developers use ScanNet and CLIP datasets to explore Uni3D’s performance. It is worth noting that the ground truth instant segmentation is available, and the primary motive is to recognize the category of every scene’s individual instant in a zero-shot setting. The results are demonstrated in the image below. As it can be seen, the Uni3D framework delivers exceptional results when performing real-world understanding & recognition. The Uni3D framework outperforms existing frameworks by a significant margin despite never training on real-world datasets. 

Cross-Modal Retrieval

The multi-modal representations learned by the Uni3D framework can allow the framework to retrieve 3D shapes naturally either from texts or images. To retrieve the 3D shapes, the model calculates the cosine similarity between the embeddings of 3D shapes, and the embeddings of a query text prompt or a query image. The framework then makes use of the KNN or K Nearest Neighbour algorithm to generate 3D shapes that resemble the query the most, and the results are demonstrated in the figure below. As it can be seen, the Uni3D framework successfully uses real-world images to retrieve 3D shapes. Furthermore, it is worth noting that training images are only for rendering purposes, and the gap between real-world and training images is substantial. Additionally, the model also takes two input images, and retrieves shapes similar to both input images by using the cosine similarity between the embedding averages of both the images, and their embedded 3D shapes. The results are interesting as they demonstrate Uni3D’s ability to learn diverse 3D representations, and perceive multiple 2D signals. 

In the first column, the framework uses 2 query images to return 3D shapes that are most similar to the query images. In the second column, the framework uses two input images to retrieve 3D shapes that resemble both the input images. Finally, in the final column, the model uses query texts, and returns 3D shapes that resemble the text query the maximum. 

Réflexions finales

In this article, we have talked about Uni3D, a scalable and unified pretraining 3D framework developed with the aim to learn large-scale 3D representations that tests its limits at the scale of over a billion parameters, over 10 million images paired with over 70 million texts, and over a million 3D shapes. The developers of the framework have included a vanilla transformer with its structure equivalent to ViTs that allows them to scale up the Uni3D framework using unified 2D or NLP scaling strategies. Furthermore, the Uni3D framework can leverage a wide array of pre-trained 2D frameworks and 2D strategies to the 3D world. The experimental results have already demonstrated the huge potential of the Uni3D framework as the Uni3D framework returns accurate & efficient results across a wide array of settings, and outperforms existing state-of-the-art frameworks. 

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.