стуб Уни3Д: Истраживање обједињене 3Д репрезентације у размери - Уните.АИ
Повежите се са нама

Вештачка интелигенција

Уни3Д: Истраживање обједињене 3Д репрезентације у размери

mm
Ажурирано on

Проширивање приказа текста и визуелних приказа било је главни фокус истраживања последњих година. Развој и истраживање спроведено у недавној прошлости довели су до бројних револуција у учењу језика и визији. Међутим, упркос популарности скалирања текста и визуелних репрезентација, скалирање представа за 3Д сцене и објекте није довољно дискутовано.

Данас ћемо разговарати о Уни3Д, 3Д моделу темеља који има за циљ да истражи обједињене 3Д репрезентације. Уни3Д оквир користи 2Д-иницијализован ВиТ оквир, унапред обучен од краја до краја, да усклади карактеристике текста слике са њиховим одговарајућим карактеристикама 3Д облака тачака.

Уни3Д оквир користи задатке са изговором и једноставну архитектуру да би искористио обиље унапред обучених 2Д модела и модела који су поравнати са текстом слике као иницијализације и циља, респективно. Овај приступ ослобађа пуни потенцијал 2Д модела и стратегија за њихово скалирање у 3Д свет.

У овом чланку ћемо дубље ући у 3Д рачунарски вид и Уни3Д оквир, истражујући основне концепте и архитектуру модела. Дакле, почнимо.

Учење Уни3Д и 3Д репрезентације: Увод

У протеклих неколико година, компјутерска визија се појавила као један од домена у којима се највише инвестира у АИ индустрији. Пратећи значајан напредак у оквирима 2Д компјутерског вида, програмери су померили свој фокус на 3Д компјутерски вид. Ово поље, посебно учење 3Д репрезентације, спаја аспекте компјутерске графике, Машина учење, компјутерски вид и математику за аутоматизацију обраде и разумевања 3Д геометрије. Брз развој 3Д сензора као што је ЛиДАР, заједно са њиховом широко распрострањеном применом у АР/ВР индустрији, довео је до тога да учење о 3Д представљању добија све већу пажњу. Његове потенцијалне апликације настављају да расту свакодневно.

Иако су постојећи оквири показали изузетан напредак у архитектури 3Д модела, моделирању оријентисаном на задатке и циљевима учења, већина истражује 3Д архитектуру у релативно малом обиму са ограниченим подацима, параметрима и сценаријима задатака. Изазов учења скалабилних 3Д приказа, који се затим могу применити на апликације у реалном времену у различитим окружењима, остаје углавном неистражен.

Напредујемо, у последњих неколико година, скалирање велики језички модели који су претходно обучени помогли су у револуцији обрада природног језика домену, а недавни радови су указали на превођење у 2Д са језика користећи податке и скалирање модела, што омогућава програмерима да покушају и поново покушају овај успех да науче 3Д приказ који се може скалирати и пренети у апликације у стварном свету. 

Уни3Д је скалабилан и обједињени 3Д оквир за претходну обуку развијен са циљем да научи велике 3Д репрезентације које тестира своје границе на скали од преко милијарду параметара, преко 10 милиона слика упарених са преко 70 милиона текстова и преко милион 3Д облика . На слици испод се пореди тачност нулте тачке са параметрима у Уни3Д оквиру. Уни3Д оквир успешно скалира 3Д приказе са 6 милиона на преко милијарду. 

Уни3Д оквир се састоји од 2Д ВиТ или Висион Трансформер као 3Д енкодер који је затим претходно обучен од краја до краја да усклади карактеристике слике и текста са карактеристикама 3Д облака тачака. Уни3Д оквир користи задатке предтекста и једноставну архитектуру да би искористио обиље унапред обучених 2Д модела и модела усклађених са текстом слике као иницијализацију и циљеве, респективно, ослобађајући на тај начин пуни потенцијал 2Д модела и стратегије за њихово скалирање у 3Д свет. Флексибилност и скалабилност Уни3Д оквира се мери у смислу

  1. Скалирање модела од 6М до преко милијарду параметара. 
  2. 2Д иницијализација на текст надгледана из визуелног самонадгледано учење
  3. Скалирање циљаног модела текстуалне слике са 150 милиона на преко милијарду параметара. 

У оквиру флексибилног и уједињеног оквира који нуди Уни3Д, програмери примећују кохерентно повећање перформанси када је у питању скалирање сваке компоненте. Учење великих размера 3Д репрезентације такође има огромну корист од дељених 2Д стратегија и стратегија повећања. 

Као што се може видети на доњој слици, Уни3Д оквир показује побољшање перформанси у поређењу са претходном техником у подешавањима са неколико и нула снимака. Вреди напоменути да Уни3Д оквир враћа оцену тачности класификације од преко 88% на МоделНет-у што је у рангу са перформансама неколико најсавременијих метода надзора. 

Штавише, Уни3Д оквир такође пружа врхунску тачност и перформансе приликом обављања других репрезентативних 3Д задатака као што су сегментација делова и разумевање отвореног света. Уни3Д оквир има за циљ да премости јаз између 2Д визије и 3Д визије скалирањем 3Д темељних модела са јединственим, али једноставним приступом пре обуке како би научили робусније 3Д репрезентације у широком спектру задатака, што би на крају могло помоћи у конвергенцији 2Д и 3Д визију у широком спектру модалитета.

Уни3Д : Повезани рад

Уни3Д оквир црпи инспирацију и учи из развоја претходних учења о 3Д репрезентацији и основних модела, посебно под различитим модалитетима. 

Учење 3Д репрезентације

Метод учења 3Д репрезентације користи тачке облака за 3Д разумевање објекта, а ову област су програмери много истраживали у недавној прошлости, и примећено је да се ове тачке облака могу претходно обучити под самонадзором користећи специфичне Задаци са 3Д изговором, укључујући моделирање тачке маске, самореконструкцију и контрастно учење. 

Вреди напоменути да ове методе раде са ограниченим подацима и често не истражују мултимодалне репрезентације у 3Д из 2Д или НЛП-а. Међутим, недавни успех ЦЛИП оквира који враћа високу ефикасност у учењу визуелних концепата из сировог текста помоћу методе контрастног учења, и даље настоји да научи 3Д репрезентације усклађивањем слика, текста и карактеристика тачке облака користећи исту методу контрастног учења. 

Фоундатион Моделс

Програмери су исцрпно радили на дизајнирању темељних модела за повећање и обједињавање мултимодалних репрезентација. На пример, у домену НЛП-а, програмери су радили на оквирима који могу да повећају унапред обучене језичке моделе, и то полако револуционише НЛП индустрију. Штавише, напредак се може приметити иу домену 2Д визије јер програмери раде на оквирима који користе технике скалирања података и модела како би помогли у напретку језика до 2Д модела, иако је такве оквире тешко реплицирати за 3Д моделе због ограничена доступност 3Д података и изазови који се јављају приликом обједињавања и скалирања 3Д оквира. 

Учећи из горња два радна домена, програмери су креирали Уни3Д фрамеворк, први 3Д темељни модел са преко милијарду параметара који користи јединствену ВиТ или Висион Трансформер архитектуру која омогућава програмерима да скалирају Уни3Д модел користећи обједињене 3Д или НЛП стратегије за скалирање модела. Програмери се надају да ће овај метод омогућити Уни3Д оквиру да премости јаз који тренутно раздваја 2Д и 3Д визију заједно са олакшавањем мултимодалне конвергенције

Уни3Д : Метод и архитектура

Горња слика приказује генерички преглед Уни3Д оквира, скалабилног и унифицираног 3Д оквира пре обуке за учење 3Д репрезентације великих размера. Програмери користе преко 70 милиона текстова и 10 милиона слика упарених са преко милион 3Д облика да би скалирали Уни3Д оквир на преко милијарду параметара. Уни3Д оквир користи 2Д ВиТ или Висион Трансформер као 3Д енкодер који је затим обучен од краја до краја да усклади податке текстуалне слике са карактеристикама 3Д тачке облака, омогућавајући Уни3Д оквиру да испоручи жељену ефикасност и тачност широм широк спектар мерила. Хајде сада да детаљно погледамо рад Уни3Д оквира. 

Скалирање Уни3Д Фрамеворк-а

Претходне студије о учењу представљања тачака облака традиционално су се у великој мери фокусирале на дизајнирање одређених архитектура модела које дају боље перформансе у широком спектру апликација и раде на ограниченој количини података захваљујући малим скуповима података. Међутим, недавне студије су покушале да истраже могућност коришћења скалабилне пре-тренинга у 3Д, али није било већих резултата захваљујући доступности ограничених 3Д података. Да би се решио проблем скалабилности 3Д оквира, Уни3Д фрамеворк користи снагу ваниле трансформаторске структуре која скоро рефлектује Висион Трансформер, и може решити проблеме скалирања коришћењем обједињених 2Д или НЛП стратегија скалирања за скалирање величине модела. 

Претходне студије о учењу представљања тачака облака традиционално су се у великој мери фокусирале на дизајнирање одређених архитектура модела које дају боље перформансе у широком спектру апликација и раде на ограниченој количини података захваљујући малим скуповима података. Међутим, недавне студије су покушале да истраже могућност коришћења скалабилне пре-тренинга у 3Д, али није било већих резултата захваљујући доступности ограничених 3Д података. Да би се решио проблем скалабилности 3Д оквира, Уни3Д фрамеворк користи снагу ваниле трансформаторске структуре која скоро рефлектује Висион Трансформер, и може решити проблеме скалирања коришћењем обједињених 2Д или НЛП стратегија скалирања за скалирање величине модела. 

Иницијализација Уни3Д

Још један велики изазов са којим су се сусрели претходни радови укључени у скалирање 3Д приказа, потешкоће у конвергенцији и прекомерно прилагођавање који су били резултат велике величине модела. Ефикасан приступ за превазилажење ове препреке је претходно обучавање појединачних 3Д окосница са одређеним задацима 3Д предтекста и иницијализација унапред обучених параметара. Међутим, приступ је праћен високим трошковима обуке, а такође је тешко успоставити робусну иницијализацију за међумодално учење захваљујући ограниченој количини 3Д података доступних за потребе обуке. 

Уни3Д оквир користи ванила трансформатор, чија структура веома личи на ВиТ. Са овим приступом, Уни3Д оквир може природно да усвоји унапред обучене велике моделе са другим модалитетима за иницијализацију Уни3Д оквира. 

Мулти-Модал Алигнмент

Уни3Д оквир покушава да научи вишемоделна поравнања преко слика, језика и облака тачака користећи парадигме сличне ОпенСхапе и УЛИП оквирима. Штавише, да би се обезбедило поштено поређење са другим методама, Уни3Д фрамеворк користи збирни 3Д скуп података од стране ОпенСхапе-а за потребе обуке. Овај скуп података ОпенСхапе-а састоји се од 4 3Д скупа података: 

  1. Објаверсе. 
  2. СхапеНет. 
  3. 3Д-БУДУЋНОСТ. 
  4. АБО. 

Експерименти и резултати

Уни3Д оквир је тестиран у различитим поставкама и у различитим задацима класификације, укључујући његове перформансе у поставкама нула снимака и неколико снимака, резултате око разумевања отвореног света и још много тога. Хајде да детаљно погледамо ове резултате.

Класификација облика са нултим ударцем

Да би проценили перформансе Уни3Д оквира у задацима класификације облика нулте тачке, програмери спроводе експерименте на три референтна мерила укључујући МоделНет, СцанОбјНН и Објаверсе-ЛВИС скупове података. МоделНет и СцанОбјНН су скупови података који се широко користе за задатке класификације и састоје се од 15, односно 40 категорија објеката, док је Објаверсе-ЛВИС бенцхмарк очишћени скуп података са коментарима који се састоји од преко 40,000 објеката у преко 1,100 категорија. Поређење између оквира је приказано на слици испод, и као што се може видети, Уни3Д фрамеворк значајно надмашује претходне оквире модерне уметности у различитим поставкама. 

Линеарно сондирање са неколико снимака

У АИ, линеарно испитивање је уобичајена метода која се користи за процену репрезентација које оквир или модел учи. Да би проценили Уни3Д-ову способност линеарног сондирања, програмери замрзавају параметре Уни3Д оквира користећи уобичајена подешавања као ОпенСхапе. Након тога, програмери обучавају линеарни класификатор за Уни3Д користећи ознаке класа са неколико снимака. Слика испод показује способност линеарног сондирања различитих оквира у скупу података Објаверсе-ЛВИС и показује просечне перформансе модела у 10 насумичних семена. Као што се може видети, Уни3Д фрамеворк значајно надмашује постојеће методе под различитим подешавањима за неколико снимака. 

Разумевање отвореног света

Да би проценили способност Уни3Д оквира да разуме облике и објекте из стварног света у реалном времену, програмери користе СцанНет и ЦЛИП скупове података да би истражили перформансе Уни3Д-а. Вреди напоменути да је доступна тренутна сегментација основне истине, а примарни мотив је да се препозна категорија појединачног тренутка сваке сцене у поставци нулте снимке. Резултати су приказани на слици испод. Као што се може видети, Уни3Д фрамеворк пружа изузетне резултате када се врши разумевање и препознавање у стварном свету. Уни3Д оквир надмашује постојеће оквире са значајном разликом упркос томе што никада није обучавао скупове података из стварног света. 

Цросс-Модал Ретриевал

Мултимодалне репрезентације научене помоћу Уни3Д оквира могу омогућити оквиру да природно преузима 3Д облике било из текстова или слика. Да би преузео 3Д облике, модел израчунава косинусну сличност између уграђивања 3Д облика и уграђивања текста упита или слике упита. Оквир затим користи КНН или К Неарест Неигхбор алгоритам да генерише 3Д облике који највише личе на упит, а резултати су приказани на слици испод. Као што се може видети, Уни3Д оквир успешно користи слике из стварног света за добијање 3Д облика. Штавише, вреди напоменути да су слике за обуку само за потребе приказивања, а јаз између слика из стварног света и слика за обуку је значајан. Поред тога, модел такође узима две улазне слике и преузима облике сличне обема улазним сликама користећи косинусну сличност између просечних вредности за уграђивање обе слике и њихових уграђених 3Д облика. Резултати су занимљиви јер показују способност Уни3Д-а да научи различите 3Д репрезентације и перципира више 2Д сигнала. 

У првој колони, оквир користи 2 слике упита да врати 3Д облике који су најсличнији сликама упита. У другој колони, оквир користи две улазне слике да би добио 3Д облике који личе на обе улазне слике. Коначно, у последњој колони, модел користи текстове упита и враћа 3Д облике који максимално подсећају на текстуални упит. 

Завршне мисли

У овом чланку смо говорили о Уни3Д, скалабилном и обједињеном 3Д оквиру за претходну обуку развијеном са циљем да научи велике 3Д репрезентације које тестира своје границе на скали од преко милијарду параметара, преко 10 милиона слика упарених са преко 70 милиона текстове и преко милион 3Д облика. Програмери оквира су укључили ванила трансформатор чија је структура еквивалентна ВиТ-у који им омогућава да увећају Уни3Д оквир користећи унифициране 2Д или НЛП стратегије скалирања. Штавише, Уни3Д оквир може искористити широку лепезу унапред обучених 2Д оквира и 2Д стратегија у 3Д свету. Експериментални резултати су већ показали огроман потенцијал Уни3Д оквира јер Уни3Д фрамеворк враћа тачне и ефикасне резултате у широком спектру подешавања и надмашује постојеће најсавременије оквире. 

„Инжењер по занимању, писац по срцу“. Кунал је технички писац са дубоком љубављу и разумевањем АИ и МЛ, посвећен поједностављивању сложених концепата у овим областима кроз своју занимљиву и информативну документацију.