stub Uni3D: odkrywanie ujednoliconej reprezentacji 3D w dużej skali — Unite.AI
Kontakt z nami

Artificial Intelligence

Uni3D: odkrywanie ujednoliconej reprezentacji 3D w dużej skali

mm
Zaktualizowano on

W ostatnich latach głównym przedmiotem badań było zwiększanie skali reprezentacji tekstu i materiałów wizualnych. Rozwój i badania prowadzone w niedawnej przeszłości doprowadziły do ​​licznych rewolucji w nauce języków i widzeniu. Jednak pomimo popularności skalowania tekstu i reprezentacji wizualnych, skalowanie reprezentacji scen i obiektów 3D nie zostało wystarczająco omówione.

Dzisiaj omówimy Uni3D, podstawowy model 3D, którego celem jest badanie ujednoliconych reprezentacji 3D. Struktura Uni3D wykorzystuje zainicjowaną w 2D strukturę ViT, wstępnie przeszkoloną od początku do końca, aby dopasować funkcje obrazu i tekstu do odpowiadających im funkcji chmury punktów 3D.

Struktura Uni3D wykorzystuje zadania pretekstowe i prostą architekturę, aby wykorzystać bogactwo wstępnie wyszkolonych modeli 2D i modeli wyrównanych do obrazu i tekstu jako odpowiednio inicjalizacje i cele. Takie podejście uwalnia pełny potencjał modeli 2D i strategii skalowania ich do świata 3D.

W tym artykule zagłębimy się w 3D wizja komputerowa oraz framework Uni3D, badający podstawowe koncepcje i architekturę modelu. Zacznijmy więc.

Nauka reprezentacji Uni3D i 3D: wprowadzenie

W ciągu ostatnich kilku lat wizja komputerowa stała się jedną z najintensywniej inwestowanych dziedzin w branży sztucznej inteligencji. W następstwie znacznych postępów w systemach widzenia komputerowego 2D programiści przenieśli swoją uwagę na widzenie komputerowe 3D. Dziedzina ta, w szczególności nauka reprezentacji 3D, łączy w sobie aspekty grafiki komputerowej, uczenie maszynowe, wizja komputerowa i matematyka w celu zautomatyzowania przetwarzania i zrozumienia geometrii 3D. Szybki rozwój czujników 3D, takich jak LiDAR, wraz z ich powszechnymi zastosowaniami w branży AR/VR, spowodował, że nauka reprezentacji 3D zyskała coraz większą uwagę. Jego potencjalne zastosowania stale rosną z dnia na dzień.

Chociaż istniejące frameworki wykazały niezwykły postęp w architekturze modeli 3D, modelowaniu zorientowanym na zadania i celach edukacyjnych, większość z nich bada architekturę 3D na stosunkowo małą skalę z ograniczonymi danymi, parametrami i scenariuszami zadań. Wyzwanie polegające na nauczeniu się skalowalnych reprezentacji 3D, które można następnie zastosować w zastosowaniach czasu rzeczywistego w różnych środowiskach, pozostaje w dużej mierze niezbadane.

W ciągu ostatnich kilku lat postępujemy dalej, skalując duże modele językowe które są wstępnie przeszkolone, pomogło w zrewolucjonizowaniu przetwarzanie języka naturalnego domeny, a ostatnie prace wykazały postępujące tłumaczenie na język 2D z języka wykorzystującego skalowanie danych i modeli, co umożliwia programistom podjęcie ponownej próby tego sukcesu w celu poznania reprezentacji 3D, którą można skalować i przenieść do aplikacji w świecie rzeczywistym. 

Uni3D to skalowalna i ujednolicona platforma do wstępnego uczenia 3D opracowana w celu uczenia się reprezentacji 3D na dużą skalę, która testuje swoje ograniczenia w skali ponad miliarda parametrów, ponad 10 milionów obrazów w połączeniu z ponad 70 milionami tekstów i ponad milionem kształtów 3D . Poniższy rysunek porównuje dokładność zerową z parametrami w środowisku Uni3D. Framework Uni3D z powodzeniem skaluje reprezentacje 3D od 6 milionów do ponad miliarda. 

Struktura Uni3D składa się z 2D ViT lub Transformator wizji jako koder 3D, który jest następnie kompleksowo szkolony w celu dostosowania funkcji wyrównania obrazu do tekstu z funkcjami chmury punktów 3D. Framework Uni3D wykorzystuje zadania pretekstowe i prostą architekturę, aby wykorzystać bogactwo wstępnie wytrenowanych modeli 2D i modeli dopasowanych do tekstu obrazu odpowiednio jako inicjalizacji i obiektów docelowych, uwalniając w ten sposób pełny potencjał modeli 2D i strategii skalowania ich do świata 3D. Elastyczność i skalowalność frameworku Uni3D mierzy się w kategoriach

  1. Skalowanie modelu od 6M do ponad miliarda parametrów. 
  2. Inicjalizacja 2D do tekstu nadzorowana wizualnie samonadzorowane uczenie się ;)
  3. Skalowanie docelowego modelu tekstowo-obrazowego od 150 milionów do ponad miliarda parametrów. 

W ramach elastycznej i ujednoliconej platformy oferowanej przez Uni3D programiści obserwują spójny wzrost wydajności, jeśli chodzi o skalowanie każdego komponentu. Uczenie się reprezentacji 3D na dużą skalę również przynosi ogromne korzyści dzięki współdzielonym strategiom 2D i skalowaniu. 

Jak widać na poniższym rysunku, środowisko Uni3D wykazuje wzrost wydajności w porównaniu do stanu techniki w ustawieniach kilku i zerowych. Warto zauważyć, że platforma Uni3D zapewnia zerowy wynik dokładności klasyfikacji wynoszący ponad 88% w ModelNet, co jest porównywalne z wydajnością kilku najnowocześniejszych metod nadzoru. 

Co więcej, platforma Uni3D zapewnia również najwyższą dokładność i wydajność podczas wykonywania innych reprezentatywnych zadań 3D, takich jak segmentacja części i zrozumienie otwartego świata. Framework Uni3D ma na celu wypełnienie luki pomiędzy wizją 2D i wizją 3D poprzez skalowanie podstawowych modeli 3D za pomocą ujednoliconego, ale prostego podejścia do szkolenia wstępnego, aby nauczyć się solidniejszych reprezentacji 3D w szerokim zakresie zadań, co może ostatecznie pomóc w konwergencji 2D i widzenie 3D w szerokim zakresie modalności.

Uni3D: Powiązane prace

Framework Uni3D czerpie inspirację i uczy się z osiągnięć dokonanych w ramach wcześniejszego uczenia się reprezentacji 3D oraz modeli podstawowych, zwłaszcza w różnych modalnościach. 

Nauka reprezentacji 3D

Metoda uczenia się reprezentacji 3D wykorzystuje punkty chmur do zrozumienia obiektu w 3D, a dziedzina ta była w niedawnej przeszłości szeroko badana przez programistów i zaobserwowano, że te punkty chmur można wstępnie wyszkolić pod własnym nadzorem przy użyciu określonych Zadania pretekstowe 3D, w tym modelowanie punktów maskowych, autorekonstrukcja i uczenie się kontrastowe. 

Warto zauważyć, że metody te działają z ograniczonymi danymi i często nie badają reprezentacji multimodalnych w 3D z 2D lub NLP. Jednak niedawny sukces platformy CLIP, która zapewnia wysoką efektywność uczenia się koncepcji wizualnych z surowego tekstu przy użyciu metody uczenia się kontrastowego, a ponadto ma na celu naukę reprezentacji 3D poprzez dopasowywanie cech obrazu, tekstu i punktów chmurki przy użyciu tej samej metody uczenia się kontrastowego. 

Modele fundamentów

Programiści intensywnie pracowali nad projektowaniem modeli podstawowych w celu zwiększenia skali i ujednolicenia reprezentacji multimodalnych. Na przykład w domenie NLP programiści pracowali nad frameworkami, które mogą skalować wstępnie wytrenowane modele językowe, co powoli rewolucjonizuje branżę NLP. Co więcej, postęp można zaobserwować również w dziedzinie wizji 2D, ponieważ programiści pracują nad frameworkami, które wykorzystują techniki skalowania danych i modeli, aby pomóc w przejściu języka do modeli 2D, chociaż takie frameworki są trudne do odtworzenia dla modeli 3D ze względu na ograniczona dostępność danych 3D oraz wyzwania napotykane podczas ujednolicania i skalowania struktur 3D. 

Ucząc się z powyższych dwóch dziedzin pracy, programiści stworzyli framework Uni3D, pierwszy podstawowy model 3D z ponad miliardem parametrów, który wykorzystuje ujednoliconą architekturę ViT lub Vision Transformer, która umożliwia programistom skalowanie modelu Uni3D przy użyciu ujednoliconych strategii 3D lub NLP w celu skalowania modeli. Deweloperzy mają nadzieję, że ta metoda umożliwi frameworkowi Uni3D wypełnienie luki, która obecnie oddziela wizję 2D i 3D, a także ułatwi konwergencję multimodalną

Uni3D: Metoda i architektura

Powyższy obraz przedstawia ogólny przegląd platformy Uni3D, skalowalnej i ujednoliconej platformy 3D przed szkoleniem, umożliwiającej naukę reprezentacji 3D na dużą skalę. Programiści korzystają z ponad 70 milionów tekstów i 10 milionów obrazów w połączeniu z ponad milionem kształtów 3D, aby skalować platformę Uni3D do ponad miliarda parametrów. Struktura Uni3D wykorzystuje 2D ViT lub Vision Transformer jako koder 3D, który jest następnie kompleksowo szkolony w celu dopasowania danych tekstowo-obrazowych do funkcji punktu chmury 3D, dzięki czemu platforma Uni3D może zapewnić pożądaną wydajność i dokładność w całym szeroki wachlarz benchmarków. Przyjrzyjmy się teraz szczegółowo działaniu frameworku Uni3D. 

Skalowanie frameworku Uni3D

Wcześniejsze badania nad uczeniem się reprezentacji punktów w chmurze tradycyjnie skupiały się głównie na projektowaniu konkretnych architektur modeli, które zapewniają lepszą wydajność w szerokim zakresie aplikacji i działają na ograniczonej ilości danych dzięki zbiorom danych na małą skalę. Jednakże w ostatnich badaniach próbowano zbadać możliwość wykorzystania skalowalnego treningu wstępnego w 3D, ale nie przyniosło to żadnych znaczących wyników ze względu na dostępność ograniczonych danych 3D. Aby rozwiązać problem skalowalności frameworków 3D, framework Uni3D wykorzystuje moc zwykłej struktury transformatora, która prawie odzwierciedla transformator wizyjny, i może rozwiązać problemy ze skalowaniem, stosując ujednolicone strategie skalowania 2D lub NLP w celu skalowania rozmiaru modelu. 

Wcześniejsze badania nad uczeniem się reprezentacji punktów w chmurze tradycyjnie skupiały się głównie na projektowaniu konkretnych architektur modeli, które zapewniają lepszą wydajność w szerokim zakresie aplikacji i działają na ograniczonej ilości danych dzięki zbiorom danych o małej skali. Jednakże w ostatnich badaniach próbowano zbadać możliwość wykorzystania skalowalnego treningu wstępnego w 3D, ale nie przyniosło to żadnych znaczących wyników ze względu na dostępność ograniczonych danych 3D. Aby rozwiązać problem skalowalności frameworków 3D, framework Uni3D wykorzystuje moc zwykłej struktury transformatora, która prawie odzwierciedla transformator wizyjny, i może rozwiązać problemy ze skalowaniem, stosując ujednolicone strategie skalowania 2D lub NLP w celu skalowania rozmiaru modelu. 

Inicjowanie Uni3D

Kolejnym poważnym wyzwaniem, jakie napotkały wcześniejsze prace związane ze skalowaniem reprezentacji 3D, były trudności w zbieżności i nadmierne dopasowanie, które wynikały z dużych rozmiarów modeli. Skutecznym podejściem do pokonania tej przeszkody jest wstępne nauczenie poszczególnych szkieletów 3D za pomocą określonych zadań pretekstu 3D i zainicjowanie wstępnie wyszkolonych parametrów. Jednakże takiemu podejściu towarzyszą wysokie koszty szkolenia, a także trudno jest ustalić solidną inicjalizację uczenia się międzymodalnego ze względu na ograniczoną ilość danych 3D dostępnych do celów szkoleniowych. 

Framework Uni3D wykorzystuje transformator waniliowy, którego struktura bardzo przypomina ViT. Dzięki takiemu podejściu framework Uni3D może w naturalny sposób przyjąć wstępnie wytrenowane duże modele z innymi sposobami w celu zainicjowania frameworku Uni3D. 

Wyrównanie multimodalne

Struktura Uni3D próbuje nauczyć się dopasowań wielu modeli w obrazie, języku i chmurach punktów, korzystając z paradygmatów podobnych do struktur OpenShape i ULIP. Ponadto, aby zapewnić rzetelne porównanie z innymi metodami, platforma Uni3D wykorzystuje zestaw danych 3D firmy OpenShape do celów szkoleniowych. Ten połączony zbiór danych OpenShape składa się z 4 zbiorów danych 3D: 

  1. Objawers. 
  2. ShapeNet. 
  3. PRZYSZŁOŚĆ 3D. 
  4. ABW. 

Eksperymenty i wyniki

Struktura Uni3D jest testowana w różnych ustawieniach i podczas różnych zadań klasyfikacyjnych, w tym pod względem wydajności w ustawieniach zerowego i kilku strzałów, wyników dotyczących zrozumienia otwartego świata i nie tylko. Przyjrzyjmy się szczegółowo tym wynikom.

Klasyfikacja kształtu strzału zerowego

Aby ocenić wydajność platformy Uni3D w zadaniach klasyfikacji kształtów typu zero-shot, programiści przeprowadzają eksperymenty w trzech testach porównawczych, w tym zestawach danych porównawczych ModelNet, ScanObjNN i Objaverse-LVIS. ModelNet i ScanObjNN to zbiory danych szeroko stosowane w zadaniach klasyfikacyjnych i składają się odpowiednio z 15 i 40 kategorii obiektów, natomiast benchmark Objaverse-LVIS to oczyszczony i opatrzony adnotacjami zbiór danych składający się z ponad 40,000 1,100 obiektów w ponad 3 kategoriach. Porównanie frameworków pokazano na poniższym obrazku i jak widać, framework UniXNUMXD znacznie przewyższa poprzednie, najnowocześniejsze frameworki w różnych ustawieniach. 

Sondowanie liniowe z kilkoma strzałami

W sztucznej inteligencji sondowanie liniowe jest powszechną metodą stosowaną do oceny reprezentacji, których uczy się struktura lub model. Aby ocenić zdolność sondowania liniowego Uni3D, programiści zamrażają parametry frameworku Uni3D, używając typowych ustawień, takich jak OpenShape. Następnie programiści szkolą klasyfikator liniowy dla Uni3D przy użyciu kilku etykiet klas. Poniższy rysunek przedstawia zdolność sondowania liniowego różnych struktur w zbiorze danych Objaverse-LVIS i pokazuje średnią wydajność modelu w 10 losowych ziarnach. Jak widać, framework Uni3D znacznie przewyższa istniejące metody w różnych ustawieniach kilku strzałów. 

Zrozumienie otwartego świata

Aby ocenić zdolność platformy Uni3D do zrozumienia rzeczywistych kształtów i obiektów w czasie rzeczywistym, programiści korzystają ze zbiorów danych ScanNet i CLIP w celu zbadania wydajności Uni3D. Warto zauważyć, że dostępna jest natychmiastowa segmentacja oparta na faktach, a głównym motywem jest rozpoznanie kategorii pojedynczego momentu każdej sceny w ustawieniu zerowym. Wyniki pokazano na obrazku poniżej. Jak widać, framework Uni3D zapewnia wyjątkowe wyniki podczas rozumienia i rozpoznawania świata rzeczywistego. Framework Uni3D znacznie przewyższa istniejące frameworki, mimo że nigdy nie trenował na rzeczywistych zbiorach danych. 

Pobieranie międzymodalne

Reprezentacje multimodalne wyuczone przez platformę Uni3D mogą pozwolić platformie na naturalne pobieranie kształtów 3D z tekstów lub obrazów. Aby pobrać kształty 3D, model oblicza podobieństwo cosinus między osadzeniem kształtów 3D a osadzeniem podpowiedzi tekstowej zapytania lub obrazu zapytania. Następnie platforma wykorzystuje algorytm KNN lub K Nearest Neighbor do generowania kształtów 3D, które najbardziej przypominają zapytanie, a wyniki przedstawiono na poniższym rysunku. Jak widać, framework Uni3D z powodzeniem wykorzystuje obrazy świata rzeczywistego do pobierania kształtów 3D. Ponadto warto zauważyć, że obrazy szkoleniowe służą wyłącznie do celów renderowania, a różnica między obrazami ze świata rzeczywistego a obrazami szkoleniowymi jest znaczna. Dodatkowo model pobiera również dwa obrazy wejściowe i pobiera kształty podobne do obu obrazów wejściowych, wykorzystując podobieństwo cosinus między średnimi osadzeniem obu obrazów i osadzonymi w nich kształtami 3D. Wyniki są interesujące, ponieważ pokazują zdolność Uni3D do uczenia się różnorodnych reprezentacji 3D i postrzegania wielu sygnałów 2D. 

W pierwszej kolumnie struktura wykorzystuje 2 obrazy zapytań, aby zwrócić kształty 3D najbardziej podobne do obrazów zapytań. W drugiej kolumnie struktura wykorzystuje dwa obrazy wejściowe do pobierania kształtów 3D, które przypominają oba obrazy wejściowe. Na koniec w ostatniej kolumnie model wykorzystuje teksty zapytań i zwraca kształty 3D, które maksymalnie przypominają zapytanie tekstowe. 

Final Thoughts

W tym artykule mówiliśmy o Uni3D, skalowalnym i ujednoliconym frameworku 3D do wstępnego uczenia, opracowanym w celu uczenia się reprezentacji 3D na dużą skalę, który testuje swoje ograniczenia w skali ponad miliarda parametrów, ponad 10 milionów obrazów w połączeniu z ponad 70 milionami teksty i ponad milion kształtów 3D. Twórcy frameworka dołączyli transformator waniliowy o strukturze odpowiadającej ViTs, który pozwala im skalować framework Uni3D przy użyciu ujednoliconych strategii skalowania 2D lub NLP. Co więcej, framework Uni3D może wykorzystać szeroką gamę wstępnie wyszkolonych frameworków 2D i strategii 2D w świecie 3D. Wyniki eksperymentów pokazały już ogromny potencjał platformy Uni3D, ponieważ platforma Uni3D zapewnia dokładne i wydajne wyniki w szerokim zakresie ustawień i przewyższa istniejące, najnowocześniejsze platformy. 

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.