peň Uni3D: Skúmanie jednotnej 3D reprezentácie v mierke - Unite.AI
Spojte sa s nami

Umelá inteligencia

Uni3D: Skúmanie jednotnej 3D reprezentácie v mierke

mm
Aktualizované on

Zväčšenie reprezentácií textu a vizuálov bolo v posledných rokoch hlavným cieľom výskumu. Vývoj a výskum uskutočnený v nedávnej minulosti viedli k početným revolúciám v učení sa jazykov a vízii. Napriek popularite škálovania textu a vizuálnych reprezentácií však škálovanie reprezentácií pre 3D scény a objekty nebolo dostatočne prediskutované.

Dnes budeme diskutovať o Uni3D, 3D základnom modeli, ktorého cieľom je preskúmať jednotné 3D reprezentácie. Rámec Uni3D využíva 2D inicializovaný rámec ViT, vopred pripravený na zosúladenie prvkov obrazu a textu s príslušnými funkciami 3D mračna bodov.

Rámec Uni3D využíva pretextové úlohy a jednoduchú architektúru na využitie množstva vopred pripravených 2D modelov a modelov zarovnaných s obrazom a textom ako inicializácie a cieľov. Tento prístup uvoľňuje plný potenciál 2D modelov a stratégií na ich škálovanie do 3D sveta.

V tomto článku sa budeme hlbšie venovať 3D počítačová vízia a Uni3D framework, skúmanie základných konceptov a architektúry modelu. Takže, začnime.

Uni3D a 3D Reprezentačné vzdelávanie: Úvod

V posledných rokoch sa počítačové videnie stalo jednou z najviac investovaných domén v priemysle AI. Po výraznom pokroku v rámcoch 2D počítačového videnia vývojári presunuli svoje zameranie na 3D počítačové videnie. Táto oblasť, najmä učenie sa 3D reprezentácie, spája aspekty počítačovej grafiky, strojové učenie, počítačové videnie a matematika na automatizáciu spracovania a pochopenia 3D geometrie. Rýchly vývoj 3D senzorov, ako je LiDAR, spolu s ich rozšírenými aplikáciami v priemysle AR/VR viedli k tomu, že učenie 3D reprezentácie si získalo zvýšenú pozornosť. Jeho potenciálne aplikácie neustále rastú každý deň.

Hoci existujúce rámce preukázali pozoruhodný pokrok v architektúre 3D modelov, modelovaní orientovanom na úlohy a vzdelávacích cieľoch, väčšina skúma 3D architektúru v relatívne malom rozsahu s obmedzenými údajmi, parametrami a scenármi úloh. Výzva naučiť sa škálovateľné 3D reprezentácie, ktoré potom možno aplikovať na aplikácie v reálnom čase v rôznych prostrediach, zostáva do značnej miery nepreskúmaná.

Posúvame sa, v posledných rokoch, škálovanie veľké jazykové modely ktorí sú vopred vyškolení, pomohol pri revolúcii spracovanie prirodzeného jazyka a nedávne práce naznačili postupný prechod k 2D z jazyka pomocou škálovania údajov a modelov, čo umožňuje vývojárom pokúsiť sa o tento úspech a znovu sa pokúsiť naučiť sa 3D reprezentáciu, ktorú možno škálovať a preniesť do aplikácií v reálnom svete. 

Uni3D je škálovateľný a jednotný predtréningový 3D rámec vyvinutý s cieľom naučiť sa rozsiahle 3D reprezentácie, ktoré testujú svoje limity v rozsahu viac ako miliardy parametrov, viac ako 10 miliónov obrázkov spárovaných s viac ako 70 miliónmi textov a viac ako milión 3D tvarov. . Obrázok nižšie porovnáva presnosť nulového výstrelu s parametrami v rámci Uni3D. Rámec Uni3D úspešne škáluje 3D reprezentácie zo 6 miliónov na viac ako miliardu. 

Rámec Uni3D pozostáva z 2D ViT resp Vision Transformer ako 3D kodér, ktorý je potom od začiatku až do konca vopred pripravený na zarovnanie prvkov zarovnaných medzi obrazom a textom s funkciami mračna bodov 3D. Rámec Uni3D využíva pretextové úlohy a jednoduchú architektúru na využitie množstva vopred pripravených 2D modelov a modelov zarovnaných s obrazovým textom ako inicializácie a cieľov, čím sa uvoľní plný potenciál 2D modelov a stratégií na ich škálovanie do 3D sveta. Flexibilita a škálovateľnosť rámca Uni3D sa meria z hľadiska

  1. Zmena mierky modelu od 6 miliónov až po vyše miliardy parametrov. 
  2. 2D inicializácia na text pod dohľadom vizuálu samokontrolované učenie
  3. Cieľový model textového obrázka v rozsahu od 150 miliónov na viac ako miliardu parametrov. 

V rámci flexibilného a jednotného rámca, ktorý ponúka Uni3D, vývojári pozorujú súvislé zvýšenie výkonu, pokiaľ ide o škálovanie každého komponentu. Učenie sa vo veľkom meradle 3D reprezentácie tiež nesmierne ťaží zo stratégií zdieľania 2D a škálovania. 

Ako je možné vidieť na obrázku nižšie, rámec Uni3D vykazuje zvýšenie výkonu v porovnaní s doterajším stavom v nastaveniach niekoľkých záberov a nulových záberov. Stojí za zmienku, že rámec Uni3D vracia skóre presnosti klasifikácie pri nulovom zábere viac ako 88 % na ModelNet, čo je na rovnakej úrovni ako výkon niekoľkých najmodernejších metód dohľadu. 

Okrem toho rámec Uni3D tiež poskytuje špičkovú presnosť a výkon pri vykonávaní iných reprezentatívnych 3D úloh, ako je segmentácia dielov a pochopenie otvoreného sveta. Rámec Uni3D má za cieľ preklenúť priepasť medzi 2D víziou a 3D víziou škálovaním základných 3D modelov s jednotným, ale jednoduchým prístupom pred trénovaním, aby ste sa naučili robustnejšie 3D reprezentácie naprieč širokou škálou úloh, čo by v konečnom dôsledku mohlo pomôcť pri konvergencii 2D. a 3D videnie v širokej škále modalít.

Uni3D: Súvisiace práce

Rámec Uni3D čerpá inšpiráciu a učí sa z vývoja uskutočneného predchádzajúcim učením sa 3D reprezentácie a základnými modelmi, najmä v rôznych modalitách. 

Učenie 3D reprezentácie

Metóda učenia 3D reprezentácie využíva body zákalu na 3D pochopenie objektu a túto oblasť vývojári v nedávnej minulosti veľa skúmali a bolo pozorované, že tieto body zákalu je možné vopred trénovať pod sebakontrolou pomocou špecifických Úlohy 3D pretext vrátane modelovania bodov masky, sebarekonštrukcie a kontrastného učenia. 

Stojí za zmienku, že tieto metódy pracujú s obmedzenými údajmi a často neskúmajú multimodálne reprezentácie do 3D z 2D alebo NLP. Avšak nedávny úspech rámca CLIP, ktorý vracia vysokú efektivitu pri učení vizuálnych konceptov zo surového textu pomocou kontrastnej metódy učenia a ďalej sa snaží naučiť 3D reprezentácie zarovnaním prvkov obrazu, textu a bodu zákalu pomocou rovnakej kontrastnej metódy učenia. 

Základné modely

Vývojári vyčerpávajúco pracovali na navrhovaní základných modelov na zväčšenie a zjednotenie multimodálnych reprezentácií. Napríklad v doméne NLP vývojári pracujú na rámcoch, ktoré dokážu škálovať vopred vyškolené jazykové modely, a to pomaly spôsobuje revolúciu v odvetví NLP. Okrem toho pokrok možno pozorovať aj v doméne 2D videnia, pretože vývojári pracujú na rámcoch, ktoré využívajú techniky škálovania údajov a modelov, aby pomohli pri prechode jazyka na 2D modely, hoci takéto rámce sa ťažko replikujú pre 3D modely z dôvodu obmedzená dostupnosť 3D údajov a problémy, s ktorými sa stretávame pri zjednocovaní a rozširovaní 3D rámcov. 

Učením sa z dvoch vyššie uvedených pracovných domén vývojári vytvorili Uni3D framework, prvý 3D základný model s viac ako miliardou parametrov, ktorý využíva zjednotenú architektúru ViT alebo Vision Transformer, ktorá umožňuje vývojárom škálovať Uni3D model pomocou jednotných 3D alebo NLP stratégií na zväčšenie modelov. Vývojári dúfajú, že táto metóda umožní Uni3D frameworku preklenúť medzeru, ktorá v súčasnosti oddeľuje 2D a 3D videnie spolu s uľahčením multimodálnej konvergencie.

Uni3D: Metóda a architektúra

Vyššie uvedený obrázok ukazuje všeobecný prehľad Uni3D frameworku, škálovateľného a jednotného predtréningového 3D rámca pre učenie sa vo veľkom 3D reprezentácii. Vývojári využívajú viac ako 70 miliónov textov a 10 miliónov obrázkov spárovaných s viac ako miliónom 3D tvarov na škálovanie rámca Uni3D na viac ako miliardu parametrov. Rámec Uni3D využíva 2D ViT alebo Vision Transformer ako 3D kódovač, ktorý je následne trénovaný od začiatku do konca, aby zosúladil textové obrazové dáta s funkciami 3D bodu zákalu, čo umožňuje Uni3D frameworku poskytovať požadovanú efektivitu a presnosť v celom široká škála benchmarkov. Pozrime sa teraz podrobne na fungovanie rámca Uni3D. 

Škálovanie Uni3D Frameworku

Predchádzajúce štúdie o učení sa reprezentácie bodov cloudu sa tradične zameriavali na navrhovanie konkrétnych modelových architektúr, ktoré poskytujú lepší výkon v rámci širokého spektra aplikácií a pracujú s obmedzeným množstvom údajov vďaka malým súborom údajov. Nedávne štúdie sa však pokúsili preskúmať možnosť použitia škálovateľného predtréningu v 3D, ale vďaka dostupnosti obmedzených 3D údajov sa nedosiahli žiadne zásadné výsledky. Na vyriešenie problému škálovateľnosti 3D rámcov, Uni3D framework využíva silu vanilkovej transformátorovej štruktúry, ktorá takmer odzrkadľuje Vision Transformer, a dokáže vyriešiť problémy so škálovaním pomocou zjednotených 2D alebo NLP škálovacích stratégií na škálovanie veľkosti modelu. 

Predchádzajúce štúdie o učení sa reprezentácie bodov mračna sa tradične zameriavali na navrhovanie konkrétnych modelových architektúr, ktoré poskytujú lepší výkon v širokom spektre aplikácií a pracujú s obmedzeným množstvom údajov vďaka malým súborom údajov. Nedávne štúdie sa však pokúsili preskúmať možnosť použitia škálovateľného predtréningu v 3D, ale vďaka dostupnosti obmedzených 3D údajov sa nedosiahli žiadne zásadné výsledky. Na vyriešenie problému škálovateľnosti 3D rámcov, Uni3D framework využíva silu vanilkovej transformátorovej štruktúry, ktorá takmer odzrkadľuje Vision Transformer, a dokáže vyriešiť problémy so škálovaním pomocou zjednotených 2D alebo NLP škálovacích stratégií na škálovanie veľkosti modelu. 

Inicializuje sa Uni3D

Ďalšou veľkou výzvou, s ktorou sa stretli predchádzajúce práce týkajúce sa škálovania 3D reprezentácií, sú ťažkosti s konvergenciou a nadmerným prispôsobením, ktoré boli výsledkom veľkej veľkosti modelov. Efektívnym prístupom na prekonanie tejto prekážky je predtrénovať jednotlivé 3D chrbticové siete so špecifikovanými 3D pretextovými úlohami a inicializovať predtrénované parametre. Tento prístup je však sprevádzaný vysokými nákladmi na školenie a je tiež ťažké vytvoriť robustnú inicializáciu pre crossmodálne učenie vďaka obmedzenému množstvu 3D údajov dostupných na účely školenia. 

Rámec Uni3D využíva vanilkový transformátor, ktorého štruktúra sa veľmi podobá ViT. S týmto prístupom môže Uni3D framework prirodzene prijať predtrénované veľké modely s inými modalitami na inicializáciu Uni3D frameworku. 

Multimodálne zarovnanie

Rámec Uni3D sa pokúša naučiť zarovnania viacerých modelov naprieč obrázkom, jazykom a mračnami bodov pomocou paradigiem podobných rámcom OpenShape a ULIP. Okrem toho, aby sa zabezpečilo spravodlivé porovnanie s inými metódami, rámec Uni3D používa na tréningové účely súbor 3D údajov od OpenShape. Tento súbor údajov od OpenShape pozostáva zo 4 3D súborov údajov: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. ABO. 

Experimenty a výsledky

Rámec Uni3D je testovaný naprieč rôznymi nastaveniami a rôznymi klasifikačnými úlohami vrátane jeho výkonu v nastaveniach zero-shot a few-shot, výsledkov okolo porozumenia otvoreného sveta a ďalších. Pozrime sa na tieto výsledky podrobne.

Klasifikácia tvaru nulového výstrelu

Na vyhodnotenie výkonu rámca Uni3D v rámci úloh klasifikácie tvaru zero-shot vývojári uskutočňujú experimenty naprieč tromi benchmarkmi vrátane dátových množín ModelNet, ScanObjNN a Objaverse-LVIS. ModelNet a ScanObjNN sú súbory údajov široko používané na klasifikačné úlohy a pozostávajú z 15 a 40 kategórií objektov, zatiaľ čo benchmark Objaverse-LVIS je vyčistený a anotovaný súbor údajov pozostávajúci z viac ako 40,000 1,100 objektov vo viac ako 3 XNUMX kategóriách. Porovnanie medzi rámcami je znázornené na obrázku nižšie a ako je možné vidieť, rámec UniXNUMXD výrazne prevyšuje predchádzajúci stav umeleckých rámcov v rôznych nastaveniach. 

Lineárne snímanie s niekoľkými výstrelmi

V AI je lineárne sondovanie bežnou metódou používanou na vyhodnotenie reprezentácií, ktoré sa rámec alebo model učí. Na vyhodnotenie schopnosti lineárneho snímania Uni3D vývojári zmrazia parametre rámca Uni3D pomocou bežných nastavení ako OpenShape. Následne vývojári trénujú lineárny klasifikátor pre Uni3D pomocou niekoľkých návestí tried. Obrázok nižšie ukazuje schopnosť lineárneho snímania rôznych rámcov v súbore údajov Objaverse-LVIS a ukazuje priemerný výkon modelu v rámci 10 náhodných semien. Ako je možné vidieť, Uni3D framework výrazne prekonáva existujúce metódy pri rôznych nastaveniach niekoľkých záberov. 

Porozumenie otvoreného sveta

Na vyhodnotenie schopnosti rámca Uni3D porozumieť skutočným tvarom a objektom v reálnom čase vývojári používajú súbory údajov ScanNet a CLIP na preskúmanie výkonu Uni3D. Stojí za zmienku, že je k dispozícii okamžitá segmentácia podľa základnej pravdy a primárnym motívom je rozpoznať kategóriu jednotlivých momentov každej scény pri nastavení nulového záberu. Výsledky sú znázornené na obrázku nižšie. Ako je možné vidieť, rámec Uni3D poskytuje výnimočné výsledky pri porozumení a rozpoznávaní skutočného sveta. Rámec Uni3D výrazne prevyšuje existujúce rámce napriek tomu, že sa nikdy neškolil na súbory údajov v reálnom svete. 

Cross-Modal Retrieval

Multimodálne reprezentácie naučené rámcom Uni3D môžu rámcu umožniť získať 3D tvary prirodzene buď z textov alebo obrázkov. Na získanie 3D tvarov model vypočíta kosínusovú podobnosť medzi vloženými 3D tvarmi a vloženými textovými výzvami alebo obrázkom dopytu. Rámec potom využíva algoritmus KNN alebo K Nearest Neighbor na generovanie 3D tvarov, ktoré sa najviac podobajú dotazu, a výsledky sú znázornené na obrázku nižšie. Ako je možné vidieť, Uni3D framework úspešne používa obrázky z reálneho sveta na získanie 3D tvarov. Okrem toho stojí za zmienku, že tréningové obrázky slúžia len na účely vykresľovania a rozdiel medzi skutočnými a tréningovými obrázkami je značný. Okrem toho model zoberie aj dva vstupné obrázky a získa tvary podobné obom vstupným obrázkom pomocou kosínusovej podobnosti medzi vloženými priemermi oboch obrázkov a ich vložených 3D tvarov. Výsledky sú zaujímavé, pretože demonštrujú schopnosť Uni3D učiť sa rôzne 3D reprezentácie a vnímať viaceré 2D signály. 

V prvom stĺpci framework používa 2 obrázky dotazov na vrátenie 3D tvarov, ktoré sú najviac podobné obrázkom dotazu. V druhom stĺpci framework používa dva vstupné obrázky na získanie 3D tvarov, ktoré sa podobajú obom vstupným obrázkom. Nakoniec v poslednom stĺpci model používa texty dopytov a vracia 3D tvary, ktoré sa maximálne podobajú textovému dopytu. 

Záverečné myšlienky

V tomto článku sme hovorili o Uni3D, škálovateľnom a zjednotenom predtréningovom 3D rámci vyvinutom s cieľom naučiť sa rozsiahle 3D reprezentácie, ktoré testujú svoje limity v rozsahu viac ako miliardy parametrov, viac ako 10 miliónov obrázkov spárovaných s viac ako 70 miliónmi texty a viac ako milión 3D tvarov. Vývojári rámca zahrnuli vanilkový transformátor so štruktúrou ekvivalentnou ViTs, ktorý im umožňuje škálovať rámec Uni3D pomocou zjednotených stratégií škálovania 2D alebo NLP. Okrem toho môže Uni3D framework využiť širokú škálu vopred pripravených 2D rámcov a 2D stratégií pre 3D svet. Experimentálne výsledky už preukázali obrovský potenciál Uni3D frameworku, keďže Uni3D framework prináša presné a efektívne výsledky v širokom spektre nastavení a prekonáva existujúce najmodernejšie frameworky. 

"Povolaním inžinier, srdcom spisovateľ." Kunal je technický spisovateľ s hlbokou láskou a porozumením AI a ML, ktorý sa venuje zjednodušovaniu zložitých konceptov v týchto oblastiach prostredníctvom svojej pútavej a informatívnej dokumentácie.