stubs Uni3D: vienotas 3D reprezentācijas izpēte mērogā — Unite.AI
Savienoties ar mums

Mākslīgais intelekts

Uni3D: vienotas 3D attēlojuma izpēte mērogā

mm
Atjaunināts on

Pēdējos gados galvenā uzmanība pievērsta teksta un vizuālo attēlu attēlojuma palielināšanai. Nesenā pagātnē veiktie notikumi un pētījumi ir izraisījuši daudzas revolūcijas valodu apguvē un redzējumā. Tomēr, neskatoties uz teksta un vizuālo attēlojumu mērogošanas popularitāti, 3D ainu un objektu attēlojumu mērogošana nav pietiekami apspriesta.

Šodien mēs apspriedīsim Uni3D, 3D pamata modeli, kura mērķis ir izpētīt vienotus 3D attēlojumus. Uni3D ietvars izmanto 2D inicializētu ViT ietvaru, kas ir iepriekš apmācīts no gala līdz galam, lai saskaņotu attēla teksta līdzekļus ar tiem atbilstošajiem 3D punktu mākoņa līdzekļiem.

Uni3D ietvars izmanto ieganstu uzdevumus un vienkāršu arhitektūru, lai attiecīgi izmantotu iepriekš apmācītu 2D modeļu un attēla tekstam saskaņotu modeļu pārpilnību kā inicializācijas un mērķus. Šī pieeja atbrīvo visu 2D modeļu un stratēģiju potenciālu, lai tos pielāgotu 3D pasaulei.

Šajā rakstā mēs iedziļināsimies 3D jomā datora vīzija un Uni3D ietvaru, izpētot modeļa būtiskās koncepcijas un arhitektūru. Tātad, sāksim.

Uni3D un 3D reprezentācijas mācības: ievads

Dažu pēdējo gadu laikā datorredze ir kļuvusi par vienu no visvairāk ieguldītajām jomām AI nozarē. Pēc ievērojamiem sasniegumiem 2D datorredzes ietvaros izstrādātāji ir pievērsuši uzmanību 3D datorredzei. Šī joma, jo īpaši 3D attēlojuma mācīšanās, apvieno datorgrafikas aspektus, mašīna mācīšanās, datorredze un matemātika, lai automatizētu 3D ģeometrijas apstrādi un izpratni. 3D sensoru, piemēram, LiDAR, straujā attīstība kopā ar to plaši izplatītajiem lietojumiem AR/VR nozarē ir izraisījusi lielāku uzmanību 3D attēlojuma apguvei. Tās potenciālie pielietojumi turpina pieaugt katru dienu.

Lai gan esošie ietvari ir parādījuši ievērojamu progresu 3D modeļu arhitektūrā, uz uzdevumiem orientētā modelēšanā un mācību mērķos, lielākā daļa pēta 3D arhitektūru salīdzinoši nelielā mērogā ar ierobežotiem datiem, parametriem un uzdevumu scenārijiem. Izaicinājums apgūt mērogojamus 3D attēlojumus, kurus pēc tam var izmantot reāllaika lietojumprogrammām dažādās vidēs, joprojām ir lielā mērā neizpētīts.

Dažu pēdējo gadu laikā notiek mērogošana lieli valodu modeļi kas ir iepriekš apmācīti, ir palīdzējuši radikāli mainīt dabiskās valodas apstrāde domēnā, un jaunākie darbi liecina par pāreju uz 2D no valodas, izmantojot datu un modeļu mērogošanu, kas ļauj izstrādātājiem mēģināt un atkārtoti mēģināt apgūt 3D attēlojumu, ko var mērogot un pārnest uz lietojumprogrammām reālajā pasaulē. 

Uni3D ir mērogojams un vienots pirmsapmācības 3D ietvars, kas izstrādāts ar mērķi apgūt liela mēroga 3D attēlojumus, kas pārbauda savas robežas vairāk nekā miljarda parametru mērogā, vairāk nekā 10 miljonu attēlu, kas savienoti pārī ar vairāk nekā 70 miljoniem tekstu, un vairāk nekā miljons 3D formu. . Tālāk esošajā attēlā ir salīdzināta nulles šāviena precizitāte ar parametriem Uni3D sistēmā. Uni3D sistēma veiksmīgi mērogo 3D attēlus no 6 miljoniem līdz vairāk nekā miljardam. 

Uni3D ietvars sastāv no 2D ViT vai Redzes transformators kā 3D kodētājs, kas pēc tam tiek iepriekš apmācīts līdz galam, lai saskaņotu attēla un teksta līdzinātās funkcijas ar 3D punktu mākoņa funkcijām. Uni3D ietvars izmanto ieganstu uzdevumus un vienkāršu arhitektūru, lai izmantotu iepriekš apmācītu 2D modeļu un attēlu teksta saskaņoto modeļu pārpilnību kā inicializāciju un attiecīgi mērķus, tādējādi atraisot visu 2D modeļu potenciālu un stratēģijas to mērogošanai 3D pasaulē. Uni3D ietvara elastība un mērogojamība tiek mērīta ar

  1. Modeļa mērogošana no 6 miljoniem līdz vairāk nekā miljardam parametru. 
  2. 2D inicializācija uz tekstu, kas tiek uzraudzīts no vizuālā pašpārbaudīta mācīšanās
  3. Teksta attēla mērķa modeļa mērogošana no 150 miljoniem līdz vairāk nekā miljardam parametru. 

Saskaņā ar Uni3D piedāvāto elastīgo un vienoto sistēmu izstrādātāji novēro saskaņotu veiktspējas pieaugumu, kad runa ir par katra komponenta mērogošanu. Liela mēroga 3D attēlojuma mācīšanās arī gūst milzīgu labumu no koplietojamām 2D un palielināšanas stratēģijām. 

Kā redzams zemāk esošajā attēlā, Uni3D ietvars parāda veiktspējas uzlabojumu, salīdzinot ar iepriekšējo tehnoloģiju dažu kadru un nulles kadru iestatījumos. Ir vērts atzīmēt, ka Uni3D sistēma ModelNet nodrošina nulles klasifikācijas precizitātes rādītāju, kas pārsniedz 88%, kas ir līdzvērtīgs vairāku jaunāko uzraudzības metožu veiktspējai. 

Turklāt Uni3D sistēma nodrošina arī visaugstāko precizitāti un veiktspēju, veicot citus reprezentatīvus 3D uzdevumus, piemēram, daļu segmentāciju un atvērtās pasaules izpratni. Uni3D ietvara mērķis ir pārvarēt plaisu starp 2D redzējumu un 3D redzējumu, mērogojot 3D pamata modeļus ar vienotu, taču vienkāršu pirmsapmācības pieeju, lai apgūtu izturīgākus 3D attēlojumus plašā uzdevumu klāstā, kas galu galā varētu palīdzēt 2D konverģencē. un 3D redze, izmantojot plašu modalitātes klāstu.

Uni3D : Saistīts darbs

Uni3D ietvars smeļas iedvesmu un mācās no iepriekšējās 3D attēlojuma mācīšanās un pamatmodeļu attīstībai, īpaši dažādās modalitātēs. 

3D attēlojuma mācības

3D attēlojuma mācīšanās metode izmanto mākoņa punktus objekta 3D izpratnei, un šo jomu nesenā pagātnē izstrādātāji ir daudz pētījuši, un ir novērots, ka šos mākoņpunktus var iepriekš apmācīt pašpārraudzībā, izmantojot īpašus 3D ieganstu uzdevumi, tostarp maskas punktu modelēšana, pašrekonstrukcija un kontrastējoša mācīšanās. 

Ir vērts atzīmēt, ka šīs metodes darbojas ar ierobežotiem datiem, un tās bieži nepēta multimodālos attēlojumus 3D no 2D vai NLP. Tomēr nesenie panākumi CLIP ietvarā, kas nodrošina augstu efektivitāti vizuālo jēdzienu apguvē no neapstrādāta teksta, izmantojot kontrastīvās mācīšanās metodi, un tālāk mēģina apgūt 3D attēlojumus, izlīdzinot attēla, teksta un mākoņa punktu funkcijas, izmantojot to pašu kontrastējošās mācīšanās metodi. 

Pamatu modeļi

Izstrādātāji ir pilnībā strādājuši pie pamatu modeļu izstrādes, lai palielinātu un apvienotu multimodālos attēlojumus. Piemēram, NLP domēnā izstrādātāji ir strādājuši pie ietvariem, kas var palielināt iepriekš apmācītus valodu modeļus, un tas lēnām maina NLP nozari. Turklāt sasniegumus var novērot arī 2D redzes jomā, jo izstrādātāji strādā pie ietvariem, kas izmanto datu un modeļu mērogošanas paņēmienus, lai palīdzētu valodas virzībā uz 2D modeļiem, lai gan šādus ietvarus ir grūti replicēt 3D modeļos, jo ierobežota 3D datu pieejamība un problēmas, kas radušās, apvienojot un palielinot 3D ietvarus. 

Mācoties no iepriekšminētajiem diviem darba domēniem, izstrādātāji ir izveidojuši Uni3D ietvars, pirmais 3D pamata modelis ar vairāk nekā miljardu parametru, kas izmanto vienotu ViT vai Vision Transformer arhitektūru, kas ļauj izstrādātājiem mērogot Uni3D modeli, izmantojot vienotas 3D vai NLP stratēģijas modeļu mērogošanas palielināšanai. Izstrādātāji cer, ka šī metode ļaus Uni3D sistēmai pārvarēt plaisu, kas pašlaik atdala 2D un 3D redzējumu, kā arī atvieglos multimodālo konverģenci.

Uni3D: metode un arhitektūra

Iepriekš redzamajā attēlā ir parādīts vispārīgs pārskats par Uni3D ietvaru, mērogojamu un vienotu pirmsapmācības 3D ietvaru liela mēroga 3D attēlojuma apguvei. Izstrādātāji izmanto vairāk nekā 70 miljonus tekstu un 10 miljonus attēlu, kas savienoti pārī ar vairāk nekā miljonu 3D formām, lai mērogotu Uni3D ietvaru līdz vairāk nekā miljardam parametru. Uni3D ietvars izmanto 2D ViT vai Vision Transformer kā 3D kodētāju, kas pēc tam tiek apmācīts līdz galam, lai saskaņotu teksta attēla datus ar 3D mākoņa punkta funkcijām, ļaujot Uni3D ietvaram nodrošināt vēlamo efektivitāti un precizitāti visā plašs etalonu klāsts. Ļaujiet mums tagad detalizēti apskatīt Uni3D ietvara darbību. 

Uni3D Framework mērogošana

Iepriekšējie pētījumi par mākoņpunktu attēlojuma mācīšanos tradicionāli ir vērsti uz konkrētu modeļu arhitektūru izstrādi, kas nodrošina labāku veiktspēju plašā lietojumprogrammu klāstā un strādā ar ierobežotu datu apjomu, pateicoties maza mēroga datu kopām. Tomēr jaunākajos pētījumos ir mēģināts izpētīt iespēju izmantot mērogojamu iepriekšēju apmācību 3D formātā, taču nebija nozīmīgu rezultātu, jo bija pieejami ierobežoti 3D dati. Lai atrisinātu 3D ietvaru mērogojamības problēmu, Uni3D ietvars izmanto vaniļas transformatora struktūras jaudu, kas gandrīz atspoguļo Vision Transformer, un var atrisināt mērogošanas problēmas, izmantojot vienotas 2D vai NLP mērogošanas stratēģijas, lai mērogotu modeļa izmēru. 

Iepriekšējie pētījumi par mākoņpunktu attēlojuma mācīšanos tradicionāli ir vērsti uz konkrētu modeļu arhitektūru izstrādi, kas nodrošina labāku veiktspēju plašā lietojumprogrammu klāstā un strādā ar ierobežotu datu apjomu, pateicoties maza mēroga datu kopām. Tomēr jaunākajos pētījumos ir mēģināts izpētīt iespēju izmantot mērogojamu iepriekšēju apmācību 3D formātā, taču nebija nozīmīgu rezultātu, jo bija pieejami ierobežoti 3D dati. Lai atrisinātu 3D ietvaru mērogojamības problēmu, Uni3D ietvars izmanto vaniļas transformatora struktūras jaudu, kas gandrīz atspoguļo Vision Transformer, un var atrisināt mērogošanas problēmas, izmantojot vienotas 2D vai NLP mērogošanas stratēģijas, lai mērogotu modeļa izmēru. 

Uni3D inicializācija

Vēl viens nozīmīgs izaicinājums, ar kuru saskārās iepriekšējie darbi, kas saistīti ar 3D attēlojumu mērogošanu, konverģences grūtības un pārmērīga pielāgošana, kas radās modeļu lielā izmēra dēļ. Efektīva pieeja, lai pārvarētu šo šķērsli, ir iepriekš apmācīt atsevišķus 3D mugurkaulus ar noteiktiem 3D ieganstu uzdevumiem un inicializēt iepriekš sagatavotus parametrus. Tomēr šī pieeja ir saistīta ar augstām apmācības izmaksām, un ir arī grūti izveidot stabilu inicializāciju starpmodālai apmācībai, jo apmācībai ir pieejams ierobežots 3D datu apjoms. 

Uni3D karkass izmanto vaniļas transformatoru, kura struktūra ļoti atgādina ViT. Izmantojot šo pieeju, Uni3D ietvars, protams, var pieņemt iepriekš apmācītus lielos modeļus ar citām modalitātēm, lai inicializētu Uni3D ietvaru. 

Multimodāla izlīdzināšana

Uni3D sistēma mēģina apgūt vairāku modeļu izlīdzināšanu attēlu, valodas un punktu mākoņos, izmantojot paradigmas, kas līdzīgas OpenShape un ULIP ietvariem. Turklāt, lai nodrošinātu godīgu salīdzinājumu ar citām metodēm, Uni3D ietvars apmācības nolūkos izmanto OpenShape apvienoto 3D datu kopu. Šī OpenShape apvienotā datu kopa sastāv no 4 3D datu kopām: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D NĀKOTNE. 
  4. ABO. 

Eksperimenti un rezultāti

Uni3D ietvars tiek pārbaudīts dažādos iestatījumos un dažādos klasifikācijas uzdevumos, tostarp tā veiktspēja nulles un dažu kadru iestatījumos, rezultāti saistībā ar atvērtās pasaules izpratni un daudz ko citu. Sīkāk apskatīsim šos rezultātus.

Nulles šāviena formu klasifikācija

Lai novērtētu Uni3D ietvara veiktspēju nulles formas klasifikācijas uzdevumos, izstrādātāji veic eksperimentus, izmantojot trīs etalonus, tostarp ModelNet, ScanObjNN un Objaverse-LVIS etalonu datu kopās. ModelNet un ScanObjNN ir datu kopas, ko plaši izmanto klasifikācijas uzdevumiem, un tās sastāv attiecīgi no 15 un 40 objektu kategorijām, savukārt Objaverse-LVIS etalons ir notīrīta un anotēta datu kopa, kas sastāv no vairāk nekā 40,000 1,100 objektiem vairāk nekā 3 kategorijās. Ietvaru salīdzinājums ir parādīts zemāk esošajā attēlā, un, kā redzams, UniXNUMXD ietvars dažādos iestatījumos ievērojami pārspēj iepriekšējo jaunāko ietvaru veiktspēju. 

Dažu kadru lineārā zondēšana

AI Lineārā zondēšana ir izplatīta metode, ko izmanto, lai novērtētu priekšstatus, ko ietvars vai modelis apgūst. Lai novērtētu Uni3D lineārās zondēšanas iespējas, izstrādātāji iesaldē Uni3D ietvara parametrus, izmantojot kopīgos iestatījumus kā OpenShape. Pēc tam izstrādātāji apmāca Uni3D lineāro klasifikatoru, izmantojot dažu kadru klases etiķetes. Tālāk esošajā attēlā ir parādīta dažādu ietvaru lineārās zondēšanas spēja Objaverse-LVIS datu kopā un parādīta modeļa vidējā veiktspēja 10 nejaušās sēklās. Kā redzams, Uni3D ietvars ievērojami pārspēj esošās metodes dažādos dažu kadru iestatījumos. 

Atvērtās pasaules izpratne

Lai novērtētu Uni3D ietvara spēju izprast reālās pasaules formas un objektus reāllaikā, izstrādātāji izmanto ScanNet un CLIP datu kopas, lai izpētītu Uni3D veiktspēju. Ir vērts atzīmēt, ka ir pieejama pamatpatiesības tūlītēja segmentācija, un galvenais motīvs ir atpazīt katras ainas individuālā momenta kategoriju nulles šāviena iestatījumā. Rezultāti ir parādīti zemāk esošajā attēlā. Kā redzams, Uni3D sistēma nodrošina izcilus rezultātus, veicot reālās pasaules izpratni un atpazīšanu. Uni3D ietvars ar ievērojamu starpību pārspēj esošās sistēmas, neskatoties uz to, ka tā nekad nav apmācīta reālās pasaules datu kopās. 

Vairāku veidu izguve

Uni3D ietvarā apgūtie multimodālie attēlojumi var ļaut sistēmai dabiski izgūt 3D formas no tekstiem vai attēliem. Lai izgūtu 3D formas, modelis aprēķina kosinusa līdzību starp 3D formu iegulumiem un vaicājuma teksta uzvednes vai vaicājuma attēla iegulumiem. Pēc tam sistēma izmanto KNN vai K tuvākā kaimiņa algoritmu, lai ģenerētu 3D formas, kas visvairāk atgādina vaicājumu, un rezultāti ir parādīti attēlā zemāk. Kā redzams, Uni3D sistēma veiksmīgi izmanto reālās pasaules attēlus, lai izgūtu 3D formas. Turklāt ir vērts atzīmēt, ka apmācības attēli ir paredzēti tikai renderēšanas nolūkiem, un atšķirība starp reālo pasauli un apmācības attēliem ir ievērojama. Turklāt modelis ņem arī divus ievades attēlus un izgūst formas, kas līdzīgas abiem ievades attēliem, izmantojot kosinusa līdzību starp abu attēlu iegulšanas vidējiem rādītājiem un to iegultajām 3D formām. Rezultāti ir interesanti, jo tie parāda Uni3D spēju apgūt dažādus 3D attēlojumus un uztvert vairākus 2D signālus. 

Pirmajā kolonnā ietvars izmanto 2 vaicājuma attēlus, lai atgrieztu 3D formas, kas ir vislīdzīgākās vaicājuma attēliem. Otrajā kolonnā sistēma izmanto divus ievades attēlus, lai izgūtu 3D formas, kas līdzinās abiem ievades attēliem. Visbeidzot, pēdējā kolonnā modelis izmanto vaicājuma tekstus un atgriež 3D formas, kas maksimāli līdzinās teksta vaicājumam. 

Final Domas

Šajā rakstā mēs runājām par Uni3D — mērogojamu un vienotu pirmsapmācības 3D ietvaru, kas izstrādāts ar mērķi apgūt liela mēroga 3D attēlojumus, kas pārbauda savas robežas vairāk nekā miljarda parametru mērogā, vairāk nekā 10 miljonus attēlu, kas savienoti pārī ar vairāk nekā 70 miljoniem. teksti un vairāk nekā miljons 3D formu. Sistēmas izstrādātāji ir iekļāvuši vaniļas transformatoru, kura struktūra ir līdzvērtīga ViT, kas ļauj palielināt Uni3D ietvaru, izmantojot vienotas 2D vai NLP mērogošanas stratēģijas. Turklāt Uni3D ietvars var izmantot plašu iepriekš apmācītu 2D ietvaru un 2D stratēģiju klāstu 3D pasaulei. Eksperimentālie rezultāti jau ir parādījuši Uni3D ietvara milzīgo potenciālu, jo Uni3D ietvars nodrošina precīzus un efektīvus rezultātus plašā iestatījumu klāstā un pārspēj esošās jaunākās sistēmas. 

"Pēc profesijas inženieris, pēc sirds rakstnieks". Kunals ir tehnisks rakstnieks ar dziļu mīlestību un izpratni par mākslīgo intelektu un mākslīgo intelektu, kura mērķis ir vienkāršot sarežģītas koncepcijas šajās jomās, izmantojot savu saistošo un informatīvo dokumentāciju.