stub Uni3D: Udforsker Unified 3D-repræsentation i skala - Unite.AI
Følg os

Kunstig intelligens

Uni3D: Udforsker samlet 3D-repræsentation i skala

mm
Opdateret on

Opskalering af repræsentationer af tekst og billeder har været et stort fokus i forskningen i de senere år. Udviklinger og forskning udført i den seneste tid har ført til adskillige revolutioner inden for sprogindlæring og vision. Men på trods af populariteten af ​​skalering af tekst og visuelle repræsentationer, er skaleringen af ​​repræsentationer for 3D-scener og -objekter ikke blevet tilstrækkeligt diskuteret.

I dag vil vi diskutere Uni3D, en 3D-fundamentmodel, der har til formål at udforske forenede 3D-repræsentationer. Uni3D-rammeværket anvender et 2D-initialiseret ViT-rammeværk, foruddannet ende-til-ende, for at tilpasse billedtekstfunktioner med deres tilsvarende 3D-punktskyfunktioner.

Uni3D-rammen bruger påskudsopgaver og en simpel arkitektur til at udnytte overfloden af ​​fortrænede 2D-modeller og billedtekstjusterede modeller som henholdsvis initialiseringer og mål. Denne tilgang frigør det fulde potentiale af 2D-modeller og strategier til at skalere dem til 3D-verdenen.

I denne artikel vil vi dykke dybere ned i 3D computersyn og Uni3D-rammen, der udforsker de væsentlige koncepter og modellens arkitektur. Så lad os begynde.

Uni3D- og 3D-repræsentationslæring: en introduktion

I de sidste par år har computervision vist sig som et af de mest investerede domæner i AI-industrien. Efter betydelige fremskridt inden for 2D computer vision rammer, har udviklere flyttet deres fokus til 3D computer vision. Dette felt, især læring af 3D-repræsentation, fusionerer aspekter af computergrafik, machine learning, computersyn og matematik for at automatisere behandlingen og forståelsen af ​​3D-geometri. Den hurtige udvikling af 3D-sensorer som LiDAR, sammen med deres udbredte applikationer i AR/VR-industrien, har resulteret i, at 3D-repræsentationslæring har fået øget opmærksomhed. Dens potentielle anvendelser fortsætter med at vokse dagligt.

Selvom eksisterende rammer har vist bemærkelsesværdige fremskridt inden for 3D-modelarkitektur, opgaveorienteret modellering og læringsmål, udforsker de fleste 3D-arkitektur i relativt lille skala med begrænsede data, parametre og opgavescenarier. Udfordringen med at lære skalerbare 3D-repræsentationer, som derefter kan anvendes til realtidsapplikationer i forskellige miljøer, forbliver stort set uudforsket.

I de sidste par år er vi gået med skalering store sprogmodeller som er foruddannede har hjulpet med at revolutionere naturlig sprogbehandling domæne, og nyere værker har indikeret en oversættelse i udviklingen til 2D fra sprog ved hjælp af data- og modelskalering, som gør plads for udviklere til at prøve og genforsøge denne succes for at lære en 3D-repræsentation, der kan skaleres og overføres til applikationer i den virkelige verden. 

Uni3D er en skalerbar og samlet 3D-ramme for fortræning udviklet med det formål at lære 3D-repræsentationer i stor skala, der tester sine grænser i en skala på over en milliard parametre, over 10 millioner billeder parret med over 70 millioner tekster og over en million 3D-former . Figuren nedenfor sammenligner nul-skuds nøjagtigheden med parametre i Uni3D-rammeværket. Uni3D-rammen skalerer med succes 3D-repræsentationer fra 6 millioner til over en milliard. 

Uni3D rammeværket består af en 2D ViT el Vision Transformer som 3D-koderen, der derefter er fortrænet ende-til-ende til at justere de billedtekst-justerede funktioner med 3D-punktsky-funktionerne. Uni3D-rammen gør brug af påskudsopgaver og enkel arkitektur til at udnytte overfloden af ​​forudtrænede 2D-modeller og billedtekstjusterede modeller som henholdsvis initialisering og mål, og dermed frigøre det fulde potentiale af 2D-modeller og strategier til at skalere dem til 3D-verdenen. Fleksibiliteten & skalerbarheden af ​​Uni3D rammeværket måles ift

  1. Skalering af modellen fra 6M til over en milliard parametre. 
  2. 2D initialisering til tekst overvåget fra visuelt selvstyret læring
  3. Tekst-billede målmodel skalering fra 150 millioner til over en milliard parametre. 

Under den fleksible og forenede ramme, der tilbydes af Uni3D, observerer udviklere et sammenhængende løft i ydeevnen, når det kommer til at skalere hver komponent. Den storstilede 3D-repræsentationslæring har også stor gavn af de delbare 2D- og opskaleringsstrategier. 

Som det kan ses i figuren nedenfor, viser Uni3D-rammeværket et løft i ydeevnen sammenlignet med kendt teknik i få-skuds- og nul-skudsindstillinger. Det er værd at bemærke, at Uni3D-rammeværket returnerer en nul-skuds klassificeringsnøjagtighedsscore på over 88 % på ModelNet, hvilket er på niveau med ydeevnen af ​​adskillige avancerede overvågningsmetoder. 

Ydermere leverer Uni3D-rammeværket også toppræcision og ydeevne, når du udfører andre repræsentative 3D-opgaver som delsegmentering og åben verdensforståelse. Uni3D-rammen har til formål at bygge bro mellem 2D-vision og 3D-vision ved at skalere 3D-grundlæggende modeller med en samlet, men enkel forudgående tilgang til at lære mere robuste 3D-repræsentationer på tværs af en bred vifte af opgaver, der i sidste ende kan hjælpe med at konvergensen af ​​2D og 3D-syn på tværs af en bred vifte af modaliteter.

Uni3D : Relateret arbejde

Uni3D-rammen henter inspiration og lærer af udviklingen fra tidligere 3D-repræsentationslæring og grundlæggende modeller, især under forskellige modaliteter. 

3D-repræsentationslæring

Læringsmetoden for 3D-repræsentation bruger skypunkter til 3D-forståelse af objektet, og dette felt er blevet udforsket meget af udviklere i den seneste tid, og det er blevet observeret, at disse skypunkter kan fortrænes under selvopsyn ved hjælp af specifikke 3D-påskudsopgaver, herunder maskepunktmodellering, selvrekonstruktion og kontrastiv læring. 

Det er værd at bemærke, at disse metoder fungerer med begrænset data, og de undersøger ofte ikke multimodale repræsentationer til 3D fra 2D eller NLP. Men den nylige succes med CLIP-rammeværket, der returnerer høj effektivitet i indlæring af visuelle koncepter fra rå tekst ved hjælp af den kontrastive læringsmetode, og yderligere søger at lære 3D-repræsentationer ved at justere billede, tekst og skypunktfunktioner ved hjælp af den samme kontrastive læringsmetode. 

Foundation modeller

Udviklere har udtømmende arbejdet på at designe fundamentmodeller for at skalere op og forene multimodale repræsentationer. For eksempel har udviklere i NLP-domænet arbejdet på rammer, der kan opskalere fortrænede sprogmodeller, og det revolutionerer langsomt NLP-industrien. Desuden kan der også observeres fremskridt i 2D-visionsdomænet, fordi udviklere arbejder på rammer, der bruger data- og modelskaleringsteknikker til at hjælpe med udviklingen af ​​sprog til 2D-modeller, selvom sådanne rammer er vanskelige at replikere for 3D-modeller på grund af begrænset tilgængelighed af 3D-data, og de udfordringer, man støder på, når man samler og skalerer 3D-rammerne op. 

Ved at lære af ovenstående to arbejdsdomæner har udviklere skabt Uni3D-rammeværket, den første 3D-fundamentmodel med over en milliard parametre, der gør brug af en samlet ViT- eller Vision Transformer-arkitektur, der gør det muligt for udviklere at skalere Uni3D-modellen ved hjælp af forenede 3D- eller NLP-strategier til opskalering af modellerne. Udviklere håber, at denne metode vil gøre det muligt for Uni3D-rammen at bygge bro over den kløft, der i øjeblikket adskiller 2D- og 3D-vision sammen med at lette multimodal konvergens

Uni3D : Metode og arkitektur

Ovenstående billede demonstrerer den generiske oversigt over Uni3D-rammeværket, en skalerbar og samlet 3D-ramme til forudgående træning til storstilet 3D-repræsentationslæring. Udviklere gør brug af over 70 millioner tekster og 10 millioner billeder parret med over en million 3D-former for at skalere Uni3D-rammen til over en milliard parametre. Uni3D-rammeværket bruger en 2D ViT eller Vision Transformer som en 3D-koder, der derefter trænes ende-til-ende til at justere tekst-billeddataene med 3D-cloud point-funktionerne, hvilket tillader Uni3D-rammeværket at levere den ønskede effektivitet og nøjagtighed på tværs af en bred vifte af benchmarks. Lad os nu se nærmere på Uni3D-rammens virkemåde. 

Skalering af Uni3D Framework

Tidligere undersøgelser af cloud point repræsentation læring har traditionelt fokuseret stærkt på at designe bestemte modelarkitekturer, der leverer bedre ydeevne på tværs af en bred vifte af applikationer og arbejder på en begrænset mængde data takket være småskala datasæt. Nylige undersøgelser har dog forsøgt at undersøge muligheden for at bruge skalerbar fortræning i 3D, men der var ingen større resultater takket være tilgængeligheden af ​​begrænsede 3D-data. For at løse skalerbarhedsproblemet med 3D-rammeværker udnytter Uni3D-rammeværket kraften i en vaniljetransformatorstruktur, der næsten spejler en Vision Transformer, og kan løse skaleringsproblemerne ved at bruge forenede 2D- eller NLP-opskaleringsstrategier til at skalere modelstørrelsen. 

Tidligere undersøgelser af cloud point repræsentation læring har traditionelt fokuseret stærkt på at designe bestemte modelarkitekturer, der leverer bedre ydeevne på tværs af en bred vifte af applikationer og arbejder på en begrænset mængde data takket være småskala datasæt. Nylige undersøgelser har dog forsøgt at undersøge muligheden for at bruge skalerbar fortræning i 3D, men der var ingen større resultater takket være tilgængeligheden af ​​begrænsede 3D-data. For at løse skalerbarhedsproblemet med 3D-rammeværker udnytter Uni3D-rammeværket kraften i en vaniljetransformatorstruktur, der næsten spejler en Vision Transformer, og kan løse skaleringsproblemerne ved at bruge forenede 2D- eller NLP-opskaleringsstrategier til at skalere modelstørrelsen. 

Initialiserer Uni3D

En anden stor udfordring, som tidligere arbejder involveret i skalering af 3D-repræsentationer, vanskelighederne med konvergens og overtilpasning, der var et resultat af modellernes store størrelse. En effektiv tilgang til at overvinde denne forhindring er at fortræne individuelle 3D-rygrad med specificerede 3D-påskudsopgaver og initialisere forudtrænede parametre. Fremgangsmåden er dog ledsaget af høje uddannelsesomkostninger, og det er også vanskeligt at etablere en robust initialisering til tværmodal læring takket være den begrænsede mængde 3D-data, der er tilgængelig til træningsformål. 

Uni3D-rammen udnytter en vaniljetransformator, hvis struktur minder meget om ViT. Med denne tilgang kan Uni3D-rammeværket naturligvis adoptere de fortrænede store modeller med andre modaliteter til at initialisere Uni3D-rammeværket. 

Multi-modal justering

Uni3D-rammeværket forsøger at lære multi-model justeringer på tværs af billede, sprog og punktskyer ved at gøre brug af paradigmer, der ligner OpenShape og ULIP rammer. For at sikre en rimelig sammenligning med andre metoder bruger Uni3D-rammeværket desuden det sammensatte 3D-datasæt fra OpenShape til træningsformål. Dette ensemblede datasæt af OpenShape består af 4 3D-datasæt: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FREMTID. 
  4. ABO. 

Eksperimenter og resultater

Uni3D-rammeværket er testet på tværs af forskellige indstillinger og på tværs af forskellige klassifikationsopgaver, herunder dets ydeevne i nul-skud og få skud indstillinger, resultater omkring åben verden forståelser og mere. Lad os se nærmere på disse resultater.

Nulskudsformklassifikation

For at evaluere ydeevnen af ​​Uni3D-rammen på tværs af nul-shot-formklassificeringsopgaver udfører udviklerne eksperimenter på tværs af tre benchmarks, herunder ModelNet, ScanObjNN og Objaverse-LVIS benchmark-datasæt. ModelNet og ScanObjNN er datasæt, der er meget brugt til klassificeringsopgaver, og de består af henholdsvis 15 og 40 objektkategorier, hvorimod Objaverse-LVIS benchmark er et renset og kommenteret datasæt bestående af over 40,000 objekter på tværs af 1,100+ kategorier. Sammenligningen mellem rammerne er demonstreret på billedet nedenfor, og som det kan ses, udkonkurrerer Uni3D frameworket de tidligere state of the art frameworks på tværs af forskellige indstillinger. 

Få-Shot lineær sondering

I AI er Linear Probing en almindelig metode, der bruges til at evaluere de repræsentationer, som en ramme eller en model lærer. For at evaluere Uni3Ds lineære sonderingsevne, fryser udviklerne parametrene for Uni3D-rammeværket ved at bruge de almindelige indstillinger som OpenShape. Efter dette træner udviklerne en lineær klassifikator til Uni3D ved hjælp af få-skuds klasseetiketter. Figuren nedenfor viser den lineære sonderingsevne af forskellige rammer på Objaverse-LVIS-datasættet og demonstrerer den gennemsnitlige ydeevne af modellen på tværs af 10 tilfældige frø. Som det kan ses, udkonkurrerer Uni3D-rammeværket eksisterende metoder betydeligt under forskellige få-shot-indstillinger. 

Åben verdensforståelse

For at evaluere Uni3D-rammernes evne til at forstå former og objekter i den virkelige verden i realtid, bruger udviklere ScanNet- og CLIP-datasæt til at udforske Uni3D's ydeevne. Det er værd at bemærke, at grundsandheden øjeblikkelig segmentering er tilgængelig, og det primære motiv er at genkende kategorien for hver scenes individuelle øjeblikke i en nul-shot indstilling. Resultaterne er vist på billedet nedenfor. Som det kan ses, leverer Uni3D-rammen exceptionelle resultater, når de udfører forståelse og genkendelse i den virkelige verden. Uni3D-frameworket udkonkurrerer eksisterende frameworks med en betydelig margin på trods af, at man aldrig træner på datasæt fra den virkelige verden. 

Cross-Modal Retrieval

De multimodale repræsentationer lært af Uni3D-rammeværket kan tillade rammen at hente 3D-former naturligt enten fra tekster eller billeder. For at hente 3D-formerne beregner modellen cosinus-ligheden mellem indlejring af 3D-former og indlejring af en forespørgselstekstprompt eller et forespørgselsbillede. Frameworket gør derefter brug af KNN eller K Nearest Neighbor-algoritmen til at generere 3D-former, der ligner forespørgslen mest, og resultaterne er vist i figuren nedenfor. Som det kan ses, bruger Uni3D-rammen med succes virkelige billeder til at hente 3D-former. Desuden er det værd at bemærke, at træningsbilleder kun er til gengivelsesformål, og kløften mellem virkelige billeder og træningsbilleder er betydelig. Derudover tager modellen også to inputbilleder og henter former, der ligner begge inputbilleder ved at bruge cosinus-ligheden mellem indlejringsgennemsnittene for begge billeder og deres indlejrede 3D-former. Resultaterne er interessante, da de demonstrerer Uni3Ds evne til at lære forskellige 3D-repræsentationer og opfatte flere 2D-signaler. 

I den første kolonne bruger frameworket 2 forespørgselsbilleder til at returnere 3D-former, der minder mest om forespørgselsbillederne. I den anden kolonne bruger rammeværket to inputbilleder til at hente 3D-former, der ligner begge inputbillederne. Til sidst, i den sidste kolonne, bruger modellen forespørgselstekster og returnerer 3D-former, der ligner tekstforespørgslen maksimalt. 

Afsluttende tanker

I denne artikel har vi talt om Uni3D, en skalerbar og samlet 3D-ramme for fortræning udviklet med det formål at lære 3D-repræsentationer i stor skala, der tester sine grænser i en skala på over en milliard parametre, over 10 millioner billeder parret med over 70 millioner tekster og over en million 3D-former. Udviklerne af rammeværket har inkluderet en vaniljetransformator med dens struktur svarende til ViTs, der giver dem mulighed for at opskalere Uni3D-rammeværket ved hjælp af unified 2D- eller NLP-skaleringsstrategier. Desuden kan Uni3D-rammeværket udnytte en bred vifte af forudtrænede 2D-rammeværker og 2D-strategier til 3D-verdenen. De eksperimentelle resultater har allerede demonstreret det enorme potentiale i Uni3D-rammeværket, da Uni3D-rammeværket returnerer nøjagtige og effektive resultater på tværs af en bred vifte af indstillinger og overgår eksisterende state-of-the-art rammer. 

"En ingeniør af profession, en forfatter udenad". Kunal er en teknisk skribent med en dyb kærlighed og forståelse for AI og ML, dedikeret til at forenkle komplekse begreber på disse områder gennem sin engagerende og informative dokumentation.