stub Uni3D: Li Scale Nûnertiya Yekgirtî ya 3D Vekolîn - Unite.AI
Girêdana bi me

Îstîxbaratê ya sûnî

Uni3D: Li Scale Nûnertiya 3D ya Yekgirtî vedikole

mm
Demê on

Zêdekirina nûneratiyên nivîs û dîmenan di van salên dawî de girîngiyek girîng a lêkolînê ye. Pêşketin û lêkolînên ku di paşerojê de hatine kirin, di fêrbûn û dîtina ziman de bûne sedema gelek şoreşan. Lêbelê, tevî populerbûna pîvandina nivîs û temsîlên dîtbarî, pîvandina nûneran ji bo dîmen û tiştên 3D bi têra xwe nehatiye nîqaş kirin.

Îro, em ê Uni3D, modelek bingehîn a 3D ku armanc dike ku nûnertiyên yekbûyî yên 3D vekolîne, nîqaş bikin. Çarçoveya Uni3D çarçoveyek ViT-ê-destpêkkirî ya 2D-ê, ji dawiya-bi-dawî-pêş-perwerdekirî bikar tîne, da ku taybetmendiyên wêne-nivîsê bi taybetmendiyên wan ên ewrê xala 3D-ya têkildar re hevaheng bike.

Çarçoveya Uni3D peywirên pêşnumayê û mîmariyek hêsan bikar tîne da ku pirbûna modelên 2D-ya pêş-perwerdekirî û modelên hevrêzkirî yên wêne-nivîsê, bi rêzê, wekî destpêk û armanc bikar bîne. Ev nêzîkatiya tevahî potansiyela model û stratejiyên 2D vedike da ku wan li cîhana 3D-ê bihejîne.

Di vê gotarê de, em ê di nav 3D de kûrtir bikin vîzyona computer û çarçoveya Uni3D, têgehên bingehîn û mîmariya modelê vedikole. Ji ber vê yekê, em dest pê bikin.

Fêrbûna Nûnertiya Uni3D û 3D: Destpêkek

Di çend salên çûyî de, vîzyona komputerê wekî yek ji domên herî zêde veberhênan di pîşesaziya AI de derketiye holê. Li dû pêşkeftinên girîng ên di çarçova dîtina komputera 2D de, pêşdebiran bala xwe guheztin dîtina komputera 3D. Ev qad, nemaze fêrbûna nûnertiya 3D, aliyên grafikên kompîturê dike yek, fêrbûna makîneyê, dîtina kompîturê, û matematîk ji bo otomatîzekirina pêvajoyê û têgihîştina geometriya 3D. Pêşkeftina bilez a senzorên 3D yên mîna LiDAR, ligel sepanên wan ên berbelav di pîşesaziya AR/VR de, bûye sedem ku fêrbûna nûnertiya 3D bala zêde bikişîne. Serîlêdanên wê yên potansiyel her roj mezin dibin.

Her çend çarçoveyên heyî di mîmariya modela 3D de, modelkirina peywir-oriented, û armancên fêrbûnê de pêşkeftinek berbiçav nîşan dane, piraniya wan mîmariya 3D-ê li ser astek piçûk bi dane, parametre, û senaryoyên peywirê sînordar vedikolin. Pirsgirêka fêrbûna nûnertiyên 3D-ê yên berbelav, ku dûv re dikare li ser sepanên rast-dem-ê li hawîrdorên cihêreng were sepandin, bi giranî nayê vekolîn dimîne.

Di çend salên çûyî de, bi rê ve diçin modelên zimanê mezin yên ku ji berê ve hatine perwerdekirin di şoreşa şoreşê de bûye alîkar proseskirina zimanên xwezayî domain, û xebatên dawîn wergerek di pêşkeftina 2D de ji ziman bi karanîna daneyan û pîvandina modelê destnîşan kirin, ku rê li pêşdebiran dike ku hewl bidin û vê serfiraziyê ji nû ve biceribînin da ku nûnerek 3D ya ku dikare were pîvandin û veguheztin ser sepanên di cîhana rastîn de fêr bibin. 

Uni3D çarçoveyek pêş-perwerdekirina 3D ya berbelav û yekgirtî ye ku bi mebesta fêrbûna nûneratiyên 3D-ya mezin hatî pêşve xistin ku sînorên xwe di pîvana zêdetirî mîlyar pîvanan de, zêdetirî 10 mîlyon wêneyên ku bi zêdetirî 70 mîlyon nivîsan re têkildar in, û zêdetirî mîlyonek şeklên 3D diceribîne. . Nîgara jêrîn rastbûna sifir-gule li hember pîvanên di çarçoveya Uni3D de berhev dike. Çarçoveya Uni3D bi serfirazî nûnertiyên 3D ji 6 mîlyonî berbi mîlyarek zêdetir dike. 

Çarçoveya Uni3D ji 2D ViT an pêk tê Vision Transformer wekî şîfrekera 3D-ê ku wê hingê pêş-dawî-bi-dawî tê perwerde kirin da ku taybetmendiyên hevrêziya wêne-text bi taybetmendiyên ewrê xala 3D-ê re hevaheng bike. Di çarçoweya Uni3D de peywirên hincet û mîmariya hêsan bikar tîne da ku pirbûna modelên 2D-ya pêş-perwerdekirî û modelên lihevhatî yên nivîsa wêneyê bi rêzê wekî destpêkkirin û mebestan bikar bîne, bi vî rengî potansiyela tevahî ya modelên 2D, û stratejiyên ku wan berbi cîhana 3D-ê veqetîne, derdixe. Zehmetî & mezinbûna çarçoweya Uni3D li gorî pîvanan tê pîvandin

  1. Mezinkirina modelê ji 6M heta milyarek parametre. 
  2. Destpêkirina 2D ji nivîsa ku ji dîtbarî ve hatî çavdêr kirin fêrbûna xwe-serperiştiya
  3. Modela mebesta nivîs-wêneyê ku ji 150 mîlyonî berbi mîlyarek parametre ve diçe. 

Di binê çarçoweya maqûl û yekbûyî ya ku ji hêla Uni3D ve hatî pêşkêş kirin, pêşdebiran gava ku ew tê pîvandina her pêkhateyê zêdebûnek hevgirtî di performansê de dibîne. Fêrbûna nûnertiya 3D-ya mezin jî ji stratejiyên 2D yên parvekirî û mezinbûnê sûd werdigire. 

Wekî ku di jimareya jêrîn de tê dîtin, çarçoweya Uni3D dema ku bi hunera berê re di mîhengên çend-fîşek û zero-şok de were berhev kirin di performansê de zêdebûnek nîşan dide. Hêjayî gotinê ye ku çarçoweya Uni3D li ser ModelNet-ê ji% 88-ê xalek rastbûna dabeşkirina sifir vedigerîne, ku bi performansa gelek awayên çavdêriya hunerî ya herî pêşkeftî re ye. 

Wekî din, çarçoveya Uni3D di heman demê de dema ku karên din ên nûnerê 3D-ê yên wekî dabeşkirina beşê, û têgihîştina cîhana vekirî pêk tîne, di heman demê de rastbûn û performansa jorîn peyda dike. Çarçoveya Uni3D armanc dike ku valahiya di navbera dîtina 2D û vîzyona 3D de bi pîvandina modelên bingehîn ên 3D bi nêzîkatiyek pêş-perwerdeyê ya yekbûyî lê sade ve bigire da ku di nav cûrbecûr karûbaran de nûneratiyên 3D-ê zexmtir fêr bibe, ku dibe ku di dawiyê de di berhevkirina 2D de bibe alîkar. û dîtina 3D li seranserê cûrbecûr modalîteyan.

Uni3D: Karê Têkildar

Çarçoveya Uni3D îlhamê digire, û ji pêşkeftinên ku ji hêla fêrbûna nûneriya 3D-ya berê ve hatî çêkirin, û modelên bingehîn bi taybetî di bin modalîteyên cihêreng de fêr dibe. 

Fêrbûna Nûnertiya 3D

Rêbaza fêrbûna temsîla 3D xalên ewr ji bo têgihîştina 3D ya tiştê bikar tîne, û ev qad di paşerojê de ji hêla pêşdebiran ve pir hatî lêkolîn kirin, û hate dîtin ku ev xalên ewr dikarin di bin çavdêriya xweser de bi karanîna taybetî pêş-perwerde bibin. Karên hinceta 3D di nav de modelkirina xala maskê, xwe-avakirin, û fêrbûna berevajî. 

Hêjayî gotinê ye ku van rêbazan bi daneyên tixûbdar re dixebitin, û ew bi gelemperî nûnertiyên multimodal li 3D ji 2D an NLP lêkolîn nakin. Lêbelê, serkeftina vê dawiyê ya çarçoveya CLIP-ê ku di fêrbûna têgînên dîtbarî yên ji nivîsa xav de bi karanîna rêbaza fêrbûna berevajî ve karîgeriyek bilind vedigerîne, û bêtir hewl dide ku nûneratiyên 3D fêr bibe bi hevrêzkirina wêne, nivîs, û taybetmendiyên xala ewr bi karanîna heman rêbaza fêrbûna berevajî. 

Modelên Weqfê

Pêşdebiran bi berfirehî li ser sêwirana modelên bingehîn dixebitin da ku nûnertiyên multimodal mezin bikin û yek bikin. Mînakî, di qada NLP de, pêşdebiran li ser çarçoveyên ku dikarin modelên zimanên pêş-perwerdekirî mezin bikin dixebitin, û ew hêdî hêdî di pîşesaziya NLP de şoreş dike. Wekî din, pêşkeftin dikarin di qada dîtina 2D-ê de jî werin dîtin ji ber ku pêşdebiran li ser çarçoveyên ku teknîkên pîvandina daneyan û modelê bikar tînin dixebitin da ku di pêşveçûna zimên de berbi modelên 2D-ê bibin alîkar, her çend çarçoveyên weha ji bo modelên 3D-yê dubarekirina dijwar in ji ber ku hebûna tixûbdar a daneyên 3D, û kêşeyên ku di dema yekbûn û mezinkirina çarçoveyên 3D de rû didin. 

Bi fêrbûna ji du qadên xebatê yên li jor, pêşdebiran afirandine çarçoweya Uni3D, yekem modela bingehê 3D ya bi zêdetirî mîlyar parametre ku mîmariya ViT an Vision Transformer ya yekbûyî bikar tîne ku destûrê dide pêşdebiran ku modela Uni3D bi karanîna stratejiyên 3D an NLP yên yekbûyî ji bo pîvandina modelan bişopînin. Pêşdebir hêvî dikin ku ev rêbaz dê bihêle ku çarçoweya Uni3D valahiya ku niha dîtina 2D û 3D ji hev vediqetîne û hevahengiya pirmodal hêsan bike pir bike.

Uni3D: Rêbaz û Mîmarî

Wêneya jorîn nihêrîna giştî ya çarçoweya Uni3D, çarçoveyek pêş-perwerdeya 3D ya berbelav û yekbûyî ji bo fêrbûna nûnertiya 3D-ya mezin nîşan dide. Pêşdebir zêdetirî 70 mîlyon nivîsan, û 10 mîlyon wêneyên ku bi zêdetirî mîlyonek şeklên 3D ve têne hev kirin bikar tînin da ku çarçoweya Uni3D li ser milyarek parametre bihejînin. Çarçoveya Uni3D 2D ViT an Vision Transformer wekî şîfrekerek 3D bikar tîne ku dûv re ji dawiya-bi-dawî tê perwerde kirin da ku daneya nivîs-wêne bi taybetmendiyên xala ewr 3D re hevaheng bike, û dihêle ku çarçoweya Uni3D bikêrhatî û rastbûna xwestî di navgînek de peyda bike. rêzek berfireh a pîvanan. Ka em naha bi hûrgulî li xebata çarçoweya Uni3D binêrin. 

Mezinkirina Çarçoveya Uni3D

Lêkolînên berê yên li ser fêrbûna nûnertiya xala ewr bi kevneşopî bi giranî li ser sêwirana mîmariyên modela taybetî yên ku performansa çêtir di nav cûrbecûr serlêdanan de peyda dikin, û bi saya danehevên piçûk-pîçûk li ser jimareyek sînorkirî ya daneyê dixebitin. Lêbelê, lêkolînên vê dawîyê hewl dane ku îhtîmala karanîna pêş-perwerdeya berbelavkirî di 3D de vebikin lê ji ber hebûna daneyên tixûbdar ên 3D-ê ti encamên girîng derneketin. Ji bo çareserkirina pirsgirêka pîvandinê ya çarçoveyên 3D, çarçoweya Uni3D hêza avahiyek veguherînerek vanilla ya ku hema hema Transformerek Vision neynikê dike, bikar tîne, û dikare pirsgirêkên pîvandinê bi karanîna stratejiyên yekbûyî yên 2D an NLP-ê vebigire da ku mezinahiya modelê binirxîne. 

Lêkolînên berê yên li ser fêrbûna nûnertiya xala ewr bi kevneşopî bi giranî li ser sêwirana mîmariyên modela taybetî yên ku performansa çêtir di nav cûrbecûr serlêdanan de peyda dikin, û bi saya danehevên piçûk-pîvek li ser hejmarek sînorkirî ya daneyê dixebitin. Lêbelê, lêkolînên vê dawîyê hewl dane ku îhtîmala karanîna pêş-perwerdeya berbelavkirî di 3D de vebikin lê ji ber hebûna daneyên tixûbdar ên 3D-ê ti encamên girîng derneketin. Ji bo çareserkirina pirsgirêka pîvandinê ya çarçoveyên 3D, çarçoweya Uni3D hêza avahiyek veguherînerek vanilla ya ku hema hema Transformerek Vision neynikê dike, bikar tîne, û dikare pirsgirêkên pîvandinê bi karanîna stratejiyên yekbûyî yên 2D an NLP-ê vebigire da ku mezinahiya modelê binirxîne. 

Destpêkkirina Uni3D

Pirsgirêkek din a girîng a ku ji hêla karên berê yên ku di pîvandina nûnertiyên 3D de, dijwariyên lihevhatinê, û zêde guncan ên ku di encama mezinahiya modelan de bûn re rû bi rû maye. Nêzîkatiyek bibandor ji bo derbaskirina vê astengiyê ev e ku meriv pişta 3D-ya kesane bi peywirên pêşnumayên 3D-ê yên diyarkirî re pêş-perwerde bike, û parametreyên pêş-perwerdekirî dest pê bike. Lêbelê, nêzîkatî bi lêçûnên perwerdehiyê yên bilind ve tê, û di heman demê de dijwar e ku meriv ji bo fêrbûna cross-modal destpêkek zexm were saz kirin bi saya hejmarek sînorkirî ya daneyên 3D ku ji bo mebestên perwerdehiyê peyda dibe. 

Çarçoveya Uni3D veguherînerek vanilla bikar tîne, avahiya ku ji nêz ve dişibihe ViT. Bi vê nêzîkbûnê re, çarçoveya Uni3D bi xwezayî dikare modelên mezin ên pêş-perwerdekirî bi modalîteyên din re bipejirîne da ku çarçoveya Uni3D bide destpêkirin. 

Alignment Multi-Modal

Çarçoveya Uni3D bi karanîna paradîgmayên mîna çarçoveyên OpenShape, û ULIP hewl dide ku lihevhatinên pir-model ên li seranserê wêne, ziman û ewrên xalê fêr bibe. Wekî din, ji bo ku berhevokek adil bi rêbazên din re peyda bike, çarçoveya Uni3D ji bo mebestên perwerdehiyê daneheva 3D ya hevgirtî ya OpenShape bikar tîne. Ev daneheva hevgirtî ya OpenShape ji 4 daneyên 3D pêk tê: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-PÊŞEROJ. 
  4. ABO. 

Ceribandin û Encam

Çarçoveya Uni3D li ser mîhengên cihêreng, û li ser karên dabeşkirinê yên cihêreng tê ceribandin, tevî performansa wê di mîhengên zero-shot, û çend-şok, encamên li dora têgihîştina cîhana vekirî, û hêj bêtir. Werin em bi hûrgulî li van encaman binêrin.

Zero Shot Classification Shape

Ji bo nirxandina performansa çarçoweya Uni3D li seranserê peywirên dabeşkirina şiklê zero-shot, pêşdebir ceribandinan li sê pîvanan di nav de ModelNet, ScanObjNN û Objaverse-LVIS berhevokên pîvanê pêk tînin. ModelNet, û ScanObjNN danehev in ku bi berfirehî ji bo karên dabeşkirinê têne bikar anîn, û ew bi rêzê ji 15, û 40 kategoriyên tiştan pêk tên, lê pîvana Objaverse-LVIS danehevek paqijkirî û şirovekirî ye ku ji zêdetirî 40,000 tiştan di nav 1,100+ kategoriyan de pêk tê. Berhevdana di navbera çarçoweyan de di wêneya jêrîn de tê xuyang kirin, û wekî ku tê dîtin, çarçoweya Uni3D bi girîngî ji çarçoveyên hunerî yên berê yên li ser mîhengên cihêreng derdixe. 

Çend-Şot Linear Probing

Di AI-ê de, Lêpirsîna Rêzik rêbazek hevpar e ku ji bo nirxandina nûnertiyên ku çarçoveyek an modelek fêr dibe tê bikar anîn. Ji bo nirxandina şiyana vekolîna xêz a Uni3D, pêşdebir pîvanên çarçoveya Uni3D bi karanîna mîhengên hevpar ên wekî OpenShape dicemidînin. Li dûv vê yekê, pêşdebiran ji bo Uni3D bi karanîna etîketên çîna çend-şok ve dabeşkerek xêzek perwerde dikin. Nîgara jêrîn şiyana vekolîna xêzikî ya çarçoveyên cihêreng ên li ser databasa Objaverse-LVIS destnîşan dike, û performansa navînî ya modelê di nav 10 tovên rasthatî de destnîşan dike. Wekî ku tê dîtin, çarçoweya Uni3D di bin mîhengên çend-şok ên cihêreng de rêbazên heyî bi girîngî derdixe pêş. 

Têgihiştina Cîhana Vekirî

Ji bo nirxandina kapasîteya çarçoweya Uni3D ji bo têgihîştina şikil û tiştên cîhana rastîn di wextê rast de, pêşdebir komên daneyên ScanNet û CLIP bikar tînin da ku performansa Uni3D bikolin. Hêjayî gotinê ye ku dabeşkirina tavilê ya rastiya erdê heye, û mebesta bingehîn ew e ku kategoriya tavilê ya kesane ya her dîmenê di mîhengek zero-shot de nas bike. Encam di wêneya jêrîn de têne destnîşan kirin. Wekî ku tê dîtin, çarçoveya Uni3D dema ku têgihiştin û naskirina cîhana rastîn pêk tîne encamên awarte peyda dike. Çarçoveya Uni3D tevî ku qet li ser daneyên cîhana rastîn perwerde nade, ji çarçoveyên heyî bi rêjeyek girîng derbas dibe. 

Retrieval Cross-Modal

Nûneratiyên pir-modal ên ku ji hêla çarçoweya Uni3D ve têne fêr kirin dikarin rê bidin ku çarçove bi rengek xwezayî an ji nivîs an wêneyan şeklên 3D vegerîne. Ji bo wergirtina şeklên 3D, model wekheviya kosînusê ya di navbera bicîkirina şeklên 3D de, û bicîkirina ravekek nivîsa pirsê an wêneyek pirsê hesab dike. Dûv re çarçove algorîtmaya KNN an K Cîranê Nêzîk bikar tîne da ku şeklên 3D yên ku herî zêde dişibin pirsê, û encam di jimareya jêrîn de têne destnîşan kirin. Wekî ku tê dîtin, çarçoweya Uni3D bi serfirazî wêneyên cîhana rastîn bikar tîne da ku şeklên 3D bistîne. Wekî din, hêjayî gotinê ye ku wêneyên perwerdehiyê tenê ji bo mebestên renderkirinê ne, û valahiya di navbera wêneyên cîhana rast û perwerdehiyê de girîng e. Wekî din, model di heman demê de du wêneyên têketinê jî digire, û şeklên mîna her du wêneyên têketinê vedigire bi karanîna hevsengiya kosînusê ya di navbera navgînên veguheztina her du wêneyan, û şeklên wan ên 3D yên bicîbûyî de. Encam balkêş in ji ber ku ew kapasîteya Uni3D-ê ya fêrbûna temsîlên cihêreng ên 3D-ê destnîşan dikin, û gelek îşaretên 2D-yê fam dikin. 

Di stûna yekem de, çarçove 2 wêneyên lêpirsînê bikar tîne da ku şeklên 3D yên ku herî zêde dişibin wêneyên pirsê ne vegerîne. Di stûna duyemîn de, çarçove du wêneyên têketinê bikar tîne da ku şeklên 3D yên ku dişibin her du wêneyên têketinê bistînin. Di dawiyê de, di stûna paşîn de, model nivîsên pirsê bikar tîne, û şeklên 3D yên ku herî zêde dişibin pirsa nivîsê vedigerîne. 

Thoughts Final

Di vê gotarê de, me li ser Uni3D, çarçoveyek pêş-perwerdekirina 3D ya berbelav û yekbûyî ku bi mebesta fêrbûna nûnertiyên 3D-ya mezin hatî pêşve xistin ku sînorên xwe di pîvana ji mîlyarek parametre, zêdetirî 10 mîlyon wêneyên ku bi zêdetirî 70 mîlyonî re têne hev kirin, ceribandine kir. nivîsar, û zêdetirî mîlyon şeklên 3D. Pêşdebirên çarçoweyê veguherînerek vanilla bi strukturên wê yên wekî ViT-an ve tê de heye ku destûrê dide wan ku çarçoweya Uni3D-ê bi karanîna stratejiyên pîvana yekbûyî 2D an NLP-ê mezin bikin. Wekî din, çarçoweya Uni3D dikare cûrbecûr çarçoveyek 2D-ya pêş-perwerdekirî û stratejiyên 2D-ê li cîhana 3D-ê bikar bîne. Encamên ceribandinê jixwe potansiyela mezin a çarçoweya Uni3D destnîşan kiriye ji ber ku çarçoweya Uni3D encamên rast û bikêrhatî di nav cûrbecûr mîhengan de vedigerîne, û ji çarçoveyên herî nûjen ên heyî derdixe. 

"Bi pîşeyê endezyar, bi dil nivîskar". Kunal nivîskarek teknîkî ye ku bi evîn û têgihîştina kûr a AI û ML-ê ye, ku ji bo hêsankirina têgehên tevlihev di van waran de bi navgîniya belgeyên xwe yên balkêş û agahdar ve hatî veqetandin.