tunggul Uni3D: Ngajalajah Perwakilan 3D Ngahiji dina Skala - Unite.AI
Connect with kami

Kacerdasan buatan

Uni3D: Ngajalajah Perwakilan 3D Ngahiji dina Skala

mm
diropéa on

Skala up répréséntasi téks na visuals geus fokus utama panalungtikan dina taun panganyarna. Pamekaran sareng panalungtikan anu dilakukeun dina jaman ayeuna parantos nyababkeun seueur révolusi dina diajar sareng visi basa. Sanajan kitu, sanajan popularitas skala téks na répréséntasi visual, skala répréséntasi pikeun pamandangan 3D jeung objék teu acan cukup dibahas.

Dinten ayeuna, urang bakal ngabahas Uni3D, modél yayasan 3D anu tujuanana pikeun ngajalajah perwakilan 3D anu ngahijikeun. Kerangka Uni3D ngagunakeun kerangka ViT anu diinisialisasi 2D, dilatih ti tungtung ka tungtung, pikeun nyaluyukeun fitur téks gambar sareng fitur awan titik 3D anu saluyu.

Kerangka Uni3D ngagunakeun tugas pretext sareng arsitéktur anu sederhana pikeun ngungkit seueur model 2D anu dilatih sareng modél gambar-téks-blok masing-masing salaku inisialisasi sareng target. Pendekatan ieu ngaluarkeun poténsi pinuh ku model 2D sareng strategi pikeun skala kana dunya 3D.

Dina artikel ieu, urang bakal delve deeper kana 3D visi komputer sareng kerangka Uni3D, ngajalajah konsép penting sareng arsitéktur modél. Ku kituna, hayu urang mimitian.

Uni3D jeung 3D Representasi Learning: Hiji Bubuka

Dina sababaraha taun katukang, visi komputer parantos muncul salaku salah sahiji domain anu paling seueur investasi dina industri AI. Saatos kamajuan anu signifikan dina kerangka visi komputer 2D, pamekar parantos ngalihkeun fokus kana visi komputer 3D. Widang ieu, khususna pangajaran representasi 3D, ngahijikeun aspék grafik komputer, learning mesin, visi komputer, jeung matématika pikeun ngajadikeun otomatis ngolah jeung pamahaman géométri 3D. Ngembangkeun gancang sénsor 3D sapertos LiDAR, sareng aplikasina anu nyebar dina industri AR / VR, nyababkeun pembelajaran perwakilan 3D nampi perhatian. Aplikasi poténsialna terus ningkat unggal dinten.

Sanaos kerangka anu aya parantos nunjukkeun kamajuan anu luar biasa dina arsitéktur modél 3D, pemodelan berorientasi tugas, sareng tujuan diajar, kalolobaan ngajalajah arsitéktur 3D dina skala anu kawilang leutik kalayan data terbatas, parameter, sareng skenario tugas. Tangtangan pikeun diajar répréséntasi 3D anu tiasa diskalakeun, anu teras tiasa diterapkeun kana aplikasi sacara real-time dina lingkungan anu rupa-rupa, tetep teu acan dijelajah.

Pindah sapanjang, dina sababaraha taun katukang, skala model basa badag nu tos dilatih geus mantuan dina revolutionizing nu ngolah basa alami domain, jeung karya panganyarna geus nunjukkeun tarjamahan dina kamajuan ka 2D tina basa ngagunakeun data jeung model skala nu ngajadikeun jalan pikeun pamekar pikeun nyobaan & reattempt kasuksésan ieu pikeun neuleuman ngagambarkeun 3D nu bisa diskalakeun & ditransfer ka aplikasi di dunya nyata. 

Uni3D mangrupikeun kerangka 3D pra-latihan anu tiasa skala sareng ngahijikeun anu dikembangkeun kalayan tujuan pikeun diajar perwakilan 3D skala ageung anu nguji watesna dina skala langkung ti samilyar parameter, langkung ti 10 juta gambar dipasangkeun sareng langkung ti 70 juta téks, sareng langkung ti sajuta bentuk 3D. . Gambar di handap ieu ngabandingkeun akurasi enol-shot ngalawan parameter dina kerangka Uni3D. Kerangka Uni3D hasil skala répréséntasi 3D tina 6 juta nepi ka leuwih ti samilyar. 

Kerangka Uni3D diwangun ku hiji 2D ViT atawa Transformer Visi salaku encoder 3D nu lajeng tos dilatih tungtung-to-tungtung pikeun align fitur gambar-téks Blok jeung fitur awan titik 3D. Kerangka Uni3D ngagunakeun tugas pretext sareng arsitéktur basajan pikeun ngungkit seueur model 2D anu dilatih sareng modél téks gambar anu diselaraskeun masing-masing salaku inisialisasi sareng targét, sahingga ngaleungitkeun poténsi pinuh modél 2D, sareng strategi pikeun skala kana dunya 3D. Kalenturan & skalabilitas kerangka Uni3D diukur tina segi

  1. Skala modél ti 6M ka leuwih samilyar parameter. 
  2. 2D initialization kana téks diawasan ti visual diajar mandiri
  3. Skala modél target gambar téks tina 150 juta dugi ka langkung ti samilyar parameter. 

Dina kerangka fléksibel sareng ngahijikeun anu ditawarkeun ku Uni3D, pamekar niténan dorongan anu koheren dina pagelaran nalika skala unggal komponén. Pangajaran perwakilan 3D skala ageung ogé nguntungkeun pisan tina strategi 2D anu tiasa dibagi sareng strategi skala-up. 

Sapertos tiasa ditingali dina gambar di handap ieu, kerangka Uni3D nampilkeun dorongan dina pagelaran upami dibandingkeun sareng seni sateuacana dina setélan sababaraha-shot sareng nol-shot. Perhatos yén kerangka Uni3D mulihkeun skor akurasi klasifikasi nol-shot langkung ti 88% dina ModelNet anu saimbang sareng kinerja sababaraha metode pengawasan canggih. 

Salajengna, kerangka Uni3D ogé nyayogikeun akurasi & kinerja anu paling luhur nalika ngalaksanakeun tugas 3D anu sanés sapertos pamisahan bagian, sareng pamahaman dunya terbuka. Kerangka Uni3D boga tujuan pikeun ngaitkeun celah antara visi 2D sareng visi 3D ku cara ngaskalakeun modél dasar 3D kalayan pendekatan pra-latihan anu ngahiji tapi saderhana pikeun neuleuman representasi 3D anu langkung kuat dina rupa-rupa tugas, anu pamustunganana tiasa ngabantosan konvergénsi 2D. sareng visi 3D ngalangkungan rupa-rupa modalitas.

Uni3D : Gawé Patali

Kerangka Uni3D narik inspirasi, sareng diajar tina pamekaran anu dilakukeun ku pembelajaran representasi 3D sateuacana, sareng modél Foundational khususna dina modalitas anu béda. 

Diajar Répréséntasi 3D

Métode pembelajaran representasi 3D ngagunakeun titik awan pikeun pamahaman 3D obyék, sareng widang ieu parantos digali ku pamekar dina jaman baheula, sareng parantos dititénan yén titik awan ieu tiasa dilatih sateuacana dina pangawasan diri nganggo spésifik. Tugas pretext 3D kalebet modeling titik topeng, rekonstruksi diri, sareng diajar kontrastif. 

Perlu dicatet yén métode ieu tiasa dianggo sareng data kawates, sareng aranjeunna sering henteu nalungtik perwakilan multimodal ka 3D tina 2D atanapi NLP. Sanajan kitu, kasuksésan panganyarna tina kerangka CLIP nu balik efisiensi tinggi dina diajar konsép visual tina téks atah ngagunakeun métode pembelajaran kontrastif, sarta salajengna narékahan pikeun neuleuman representasi 3D ku aligning fitur gambar, téks, jeung titik awan ngagunakeun métode learning kontrastif sarua. 

Model Yayasan

Pamekar parantos parantos ngusahakeun ngarancang modél yayasan pikeun skala sareng ngahijikeun perwakilan multimodal. Contona, dina domain NLP, pamekar geus dipake dina frameworks nu bisa skala up model basa pre-dilatih, sarta eta lalaunan revolutionizing industri NLP. Satuluyna, kamajuan bisa dititénan dina domain visi 2D ogé sabab pamekar nuju ngerjakeun kerangka anu ngagunakeun data & téhnik skala model pikeun mantuan dina kamajuan basa kana model 2D, sanajan frameworks sapertos hese ngayakeun réplikasi pikeun model 3D kusabab kasadiaan kawates data 3D, sareng tantangan anu disanghareupan nalika ngahijikeun & ngagedekeun kerangka 3D. 

Ku diajar tina dua domain gawé di luhur, pamekar geus dijieun kerangka Uni3D, modél yayasan 3D munggaran kalayan leuwih ti samilyar parameter anu ngagunakeun arsitéktur ViT atanapi Vision Transformer ngahiji anu ngamungkinkeun pamekar skala model Uni3D ngagunakeun strategi 3D atanapi NLP ngahijikeun pikeun skala model. Pamekar ngaharepkeun yén metodeu ieu bakal ngamungkinkeun kerangka Uni3D pikeun ngajambatan jurang anu ayeuna misahkeun visi 2D sareng 3D sareng ngagampangkeun konvergénsi multimodal.

Uni3D: Métode jeung Arsitéktur

Gambar di luhur nunjukkeun gambaran umum ngeunaan kerangka Uni3D, kerangka 3D pra-latihan anu tiasa skala sareng ngahijikeun pikeun diajar perwakilan 3D skala ageung. Pamekar ngagunakeun langkung ti 70 juta téks, sareng 10 juta gambar dipasangkeun sareng langkung ti sajuta bentuk 3D pikeun skala kerangka Uni3D ka langkung ti samilyar parameter. Kerangka Uni3D ngagunakeun 2D ViT atanapi Vision Transformer salaku encoder 3D anu teras dilatih end-to-end pikeun nyaluyukeun data gambar téks sareng fitur titik awan 3D, ngamungkinkeun kerangka Uni3D pikeun nganteurkeun efisiensi & akurasi anu dipikahoyong dina hiji rupa-rupa tolok ukur. Hayu urang ayeuna gaduh tampilan anu lengkep dina cara kerja kerangka Uni3D. 

Skala kerangka Uni3D

Studi saméméhna ngeunaan pangajaran ngagambarkeun titik awan sacara tradisional museurkeun pisan kana ngarancang arsitéktur modél khusus anu nganteurkeun kinerja anu langkung saé dina rupa-rupa aplikasi, sareng dianggo dina jumlah data anu terbatas berkat set data skala leutik. Sanajan kitu, studi panganyarna geus diusahakeun Ngalanglang kamungkinan ngagunakeun scalable pre-latihan dina 3D tapi euweuh hasil utama berkat kasadiaan data 3D kawates. Pikeun ngarengsekeun masalah skalabilitas kerangka 3D, kerangka Uni3D ngamangpaatkeun kakuatan struktur trafo vanili anu ampir ngagambarkeun Transformer Visi, sareng tiasa ngarengsekeun masalah skala ku ngagunakeun strategi skala skala 2D atanapi NLP pikeun skala ukuran modél. 

Panalitian sateuacana ngeunaan pangajaran ngagambarkeun titik awan sacara tradisional museurkeun pisan kana ngarancang arsitéktur modél khusus anu nyayogikeun kinerja anu langkung saé dina rupa-rupa aplikasi, sareng ngerjakeun jumlah data anu terbatas berkat set data skala leutik. Sanajan kitu, studi panganyarna geus diusahakeun Ngalanglang kamungkinan ngagunakeun scalable pre-latihan dina 3D tapi euweuh hasil utama berkat kasadiaan data 3D kawates. Pikeun ngarengsekeun masalah skalabilitas kerangka 3D, kerangka Uni3D ngamangpaatkeun kakuatan struktur trafo vanili anu ampir ngagambarkeun Transformer Visi, sareng tiasa ngarengsekeun masalah skala ku ngagunakeun strategi skala skala 2D atanapi NLP pikeun skala ukuran modél. 

Initializing Uni3D

Tantangan utama sanés anu disanghareupan ku karya-karya sateuacana anu kalibet dina skala répréséntasi 3D, kasusah dina konvergénsi, sareng overfitting anu mangrupikeun hasil tina ukuran ageung modél. Pendekatan anu efektif pikeun ngatasi halangan ieu nyaéta ngalatih tulang tonggong 3D individu sareng tugas pretext 3D anu khusus, sareng ngamimitian parameter anu parantos dilatih. Sanajan kitu, pendekatan ieu dibarengan ku waragad latihan tinggi, sarta éta ogé hésé pikeun ngadegkeun initialization mantap pikeun cross-modal learning berkat jumlah kawates data 3D sadia pikeun tujuan latihan. 

Kerangka Uni3D ngamangpaatkeun trafo vanili, strukturna nyarupaan ViT. Kalayan pendekatan ieu, kerangka Uni3D sacara alami tiasa ngadopsi modél ageung anu tos dilatih sareng modalitas sanés pikeun ngamimitian kerangka Uni3D. 

Multi-Modal Alignment

Kerangka Uni3D nyoba diajar multi-model alignments sakuliah gambar, basa, jeung awan titik ku ngagunakeun paradigma sarupa OpenShape, sarta frameworks ULIP. Saterusna, pikeun mastikeun perbandingan adil jeung métode séjénna, kerangka Uni3D ngagunakeun susunan data 3D ensembled ku OpenShape pikeun tujuan latihan. Dataset ensembled ieu ku OpenShape diwangun ku 4 set data 3D: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-hareup. 
  4. ABO. 

Percobaan jeung Hasil

Kerangka Uni3D diuji dina setélan anu béda-béda, sareng dina sagala rupa tugas klasifikasi kalebet kinerjana dina setélan enol-shot, sareng sababaraha-shot, hasil tina pamahaman dunya terbuka, sareng seueur deui. Hayu urang gaduh katingal lengkep kana hasil ieu.

Nol Shot Bentuk Klasifikasi

Pikeun meunteun kinerja kerangka Uni3D dina tugas klasifikasi bentuk nol-shot, pamekar ngalaksanakeun percobaan dina tilu patokan kaasup ModelNet, ScanObjNN, sareng set data patokan Objaverse-LVIS. ModelNet, sareng ScanObjNN mangrupikeun set data anu seueur dianggo pikeun tugas klasifikasi, sareng masing-masing diwangun ku 15, sareng 40 kategori obyék, sedengkeun patokan Objaverse-LVIS mangrupikeun set data anu beresih & annotated anu diwangun ku langkung ti 40,000 objék dina 1,100+ kategori. Perbandingan antara kerangka ditingalikeun dina gambar di handap ieu, sareng sakumaha anu tiasa ditingali, kerangka Uni3D sacara signifikan outperforms kaayaan saméméhna tina frameworks seni sakuliah setélan béda. 

Sababaraha-Shot Linear Probing

Dina AI, Linear Probing mangrupikeun metode anu umum dianggo pikeun ngaevaluasi perwakilan anu diajarkeun kerangka atanapi modél. Pikeun meunteun kamampuan probing linier Uni3D, pamekar ngabekukeun parameter kerangka Uni3D nganggo setélan umum salaku OpenShape. Saatos ieu, pamekar ngalatih klasifikasi linier pikeun Uni3D nganggo labél kelas sababaraha shot. Gambar di handap nunjukkeun kamampuan probing linier tina kerangka anu béda dina susunan data Objaverse-LVIS, sareng nunjukkeun kinerja rata-rata modél dina 10 siki acak. Salaku bisa ditempo, kerangka Uni3D outperforms métode aya nyata dina setélan sababaraha-shot béda. 

Pamahaman Open-Dunya

Pikeun meunteun kamampuan kerangka Uni3D ngartos bentuk & objék dunya nyata sacara real-time, pamekar ngagunakeun set data ScanNet sareng CLIP pikeun ngajalajah kinerja Uni3D. Perhatos yén ségméntasi instan bebeneran taneuh sayogi, sareng motif utami nyaéta pikeun mikawanoh kategori instan unggal pamandangan dina setting nol-shot. Hasilna nunjukkeun dina gambar di handap ieu. Sakumaha anu tiasa ditingali, kerangka Uni3D masihan hasil anu luar biasa nalika ngalaksanakeun pamahaman & pangakuan dunya nyata. Kerangka Uni3D ngaleuwihan kerangka anu aya ku margin anu signifikan sanaos henteu pernah ngalatih set data dunya nyata. 

Dimeunangkeun Cross-Modal

Répréséntasi multi-modal diajar ku kerangka Uni3D tiasa ngidinan kerangka pikeun meunangkeun deui wangun 3D sacara alami boh tina téks atanapi gambar. Pikeun meunangkeun deui wangun 3D, model ngitung kasaruaan kosinus antara embeddings tina wangun 3D, jeung embeddings tina hiji pituduh téks query atawa gambar query. Kerangka ieu teras ngagunakeun algoritma KNN atanapi K Nearest Neighbor pikeun ngahasilkeun bentuk 3D anu paling mirip sareng pamundut, sareng hasilna ditingalikeun dina gambar di handap ieu. Sakumaha anu katingali, kerangka Uni3D suksés ngagunakeun gambar dunya nyata pikeun nyandak bentuk 3D. Saterusna, eta sia noting yén gambar latihan téh ngan pikeun tujuan rendering, sarta gap antara dunya nyata jeung gambar latihan téh penting. Sajaba ti éta, modél ogé nyokot dua gambar input, sarta retrieves wangun sarupa duanana gambar input ku cara maké kasaruaan kosinus antara embedding averages duanana gambar, sarta embedded wangun 3D maranéhanana. Hasilna pikaresepeun sabab nunjukkeun kamampuan Uni3D pikeun diajar rupa-rupa representasi 3D, sareng ningali sababaraha sinyal 2D. 

Dina kolom kahiji, kerangka ngagunakeun 2 gambar query pikeun mulangkeun wangun 3D nu paling sarupa jeung gambar query. Dina kolom kadua, kerangka ngagunakeun dua gambar input pikeun meunangkeun deui wangun 3D nu nyarupaan duanana gambar input. Tungtungna, dina kolom ahir, modél ngagunakeun téks query, sarta mulih wangun 3D nu nyarupaan query téks maksimum. 

Pikiran final

Dina artikel ieu, urang geus ngobrol ngeunaan Uni3D, kerangka 3D pretraining scalable jeung ngahijikeun Tatar dimekarkeun kalawan tujuan pikeun neuleuman répréséntasi 3D skala badag nu nguji watesna dina skala leuwih ti samilyar parameter, leuwih 10 juta gambar dipasangkeun jeung leuwih 70 juta. téks, sareng langkung ti sajuta bentuk 3D. Pamekar kerangka parantos ngalebetkeun trafo vanili sareng strukturna sarimbag sareng ViTs anu ngamungkinkeun aranjeunna pikeun skala kerangka Uni3D nganggo strategi skala 2D atanapi NLP ngahiji. Salajengna, kerangka Uni3D tiasa ngungkit rupa-rupa kerangka 2D anu tos dilatih sareng strategi 2D ka dunya 3D. Hasil ékspérimén geus nunjukkeun poténsi badag tina kerangka Uni3D salaku kerangka Uni3D mulangkeun hasil akurat & efisien dina rupa-rupa setelan, sarta outperforms aya kerangka canggih. 

"Insinyur ku profési, panulis ku haté". Kunal mangrupikeun panulis téknis anu mikanyaah sareng pamahaman anu jero ngeunaan AI sareng ML, didédikasikeun pikeun nyederhanakeun konsép anu kompleks dina widang ieu ngaliwatan dokuméntasi anu pikaresepeun sareng informatif.