ठूंठ Uni3D: स्केल पर एकीकृत 3D प्रतिनिधित्व की खोज - Unite.AI
हमसे जुडे

कृत्रिम बुद्धिमत्ता

Uni3D: स्केल पर एकीकृत 3D प्रतिनिधित्व की खोज

mm
Updated on

पाठ और दृश्यों के प्रस्तुतीकरण को बढ़ाना हाल के वर्षों में अनुसंधान का एक प्रमुख केंद्र रहा है। हाल के दिनों में हुए विकास और शोध से भाषा सीखने और दृष्टि में कई क्रांतियाँ हुई हैं। हालाँकि, स्केलिंग टेक्स्ट और विज़ुअल अभ्यावेदन की लोकप्रियता के बावजूद, 3डी दृश्यों और वस्तुओं के लिए अभ्यावेदन की स्केलिंग पर पर्याप्त चर्चा नहीं की गई है।

आज, हम Uni3D, एक 3D फाउंडेशन मॉडल पर चर्चा करेंगे जिसका उद्देश्य एकीकृत 3D अभ्यावेदन का पता लगाना है। Uni3D फ्रेमवर्क छवि-पाठ सुविधाओं को उनके संबंधित 2D पॉइंट क्लाउड सुविधाओं के साथ संरेखित करने के लिए एक 3D-प्रारंभिक ViT फ्रेमवर्क, पूर्व-प्रशिक्षित एंड-टू-एंड का उपयोग करता है।

Uni3D फ्रेमवर्क क्रमशः प्रारंभिक और लक्ष्य के रूप में पूर्व-प्रशिक्षित 2D मॉडल और छवि-पाठ-संरेखित मॉडल की प्रचुरता का लाभ उठाने के लिए प्रीटेक्स्ट कार्यों और एक सरल आर्किटेक्चर का उपयोग करता है। यह दृष्टिकोण 2डी मॉडल और उन्हें 3डी दुनिया में स्केल करने की रणनीतियों की पूरी क्षमता को उजागर करता है।

इस लेख में, हम 3डी के बारे में गहराई से जानेंगे कंप्यूटर दृष्टि और Uni3D ढांचा, मॉडल की आवश्यक अवधारणाओं और वास्तुकला की खोज करना। तो, चलिए शुरू करते हैं।

Uni3D और 3D प्रतिनिधित्व सीखना: एक परिचय

पिछले कुछ वर्षों में, कंप्यूटर विज़न एआई उद्योग में सबसे अधिक निवेश वाले डोमेन में से एक के रूप में उभरा है। 2डी कंप्यूटर विज़न फ्रेमवर्क में महत्वपूर्ण प्रगति के बाद, डेवलपर्स ने अपना ध्यान 3डी कंप्यूटर विज़न पर स्थानांतरित कर दिया है। यह क्षेत्र, विशेष रूप से 3डी प्रतिनिधित्व शिक्षण, कंप्यूटर ग्राफिक्स के पहलुओं को जोड़ता है, यंत्र अधिगम3डी ज्यामिति के प्रसंस्करण और समझ को स्वचालित करने के लिए कंप्यूटर विज़न और गणित। LiDAR जैसे 3D सेंसर के तेजी से विकास के साथ-साथ AR/VR उद्योग में उनके व्यापक अनुप्रयोगों के परिणामस्वरूप 3D प्रतिनिधित्व सीखने पर अधिक ध्यान आकर्षित हुआ है। इसके संभावित अनुप्रयोग प्रतिदिन बढ़ते जा रहे हैं।

हालाँकि मौजूदा ढाँचों ने 3डी मॉडल आर्किटेक्चर, कार्य-उन्मुख मॉडलिंग और सीखने के उद्देश्यों में उल्लेखनीय प्रगति दिखाई है, अधिकांश सीमित डेटा, मापदंडों और कार्य परिदृश्यों के साथ अपेक्षाकृत छोटे पैमाने पर 3डी आर्किटेक्चर का पता लगाते हैं। स्केलेबल 3डी अभ्यावेदन सीखने की चुनौती, जिसे विभिन्न वातावरणों में वास्तविक समय के अनुप्रयोगों में लागू किया जा सकता है, काफी हद तक अज्ञात बनी हुई है।

पिछले कुछ वर्षों में, आगे बढ़ते हुए, स्केलिंग करते हुए बड़े भाषा मॉडल पूर्व-प्रशिक्षित होने से क्रांति लाने में मदद मिली है प्राकृतिक भाषा प्रसंस्करण डोमेन, और हाल के कार्यों ने डेटा और मॉडल स्केलिंग का उपयोग करके भाषा से 2डी में अनुवाद की प्रगति का संकेत दिया है जो डेवलपर्स के लिए 3डी प्रतिनिधित्व सीखने के लिए इस सफलता का प्रयास करने और पुनः प्रयास करने का मार्ग प्रशस्त करता है जिसे स्केल किया जा सकता है और वास्तविक दुनिया में अनुप्रयोगों में स्थानांतरित किया जा सकता है। 

Uni3D एक स्केलेबल और एकीकृत प्रीट्रेनिंग 3D फ्रेमवर्क है जिसे बड़े पैमाने पर 3D अभ्यावेदन सीखने के उद्देश्य से विकसित किया गया है जो एक अरब से अधिक मापदंडों के पैमाने पर अपनी सीमाओं का परीक्षण करता है, 10 मिलियन से अधिक पाठों के साथ जोड़ी गई 70 मिलियन से अधिक छवियों और एक मिलियन से अधिक 3D आकृतियों का परीक्षण करता है। . नीचे दिया गया चित्र Uni3D ढांचे में मापदंडों के विरुद्ध शून्य-शॉट सटीकता की तुलना करता है। Uni3D ढाँचा सफलतापूर्वक 3D प्रस्तुतियों को 6 मिलियन से बढ़ाकर एक बिलियन से अधिक कर देता है। 

Uni3D ढांचे में 2D ViT या शामिल है विज़न ट्रांसफार्मर 3डी एनकोडर के रूप में जिसे 3डी पॉइंट क्लाउड सुविधाओं के साथ छवि-पाठ संरेखित सुविधाओं को संरेखित करने के लिए एंड-टू-एंड पूर्व-प्रशिक्षित किया जाता है। Uni3D फ्रेमवर्क पूर्व-प्रशिक्षित 2D मॉडल और इमेज टेक्स्ट संरेखित मॉडल की प्रचुरता को क्रमशः आरंभीकरण और लक्ष्य के रूप में लाभ उठाने के लिए प्रीटेक्स्ट कार्यों और सरल वास्तुकला का उपयोग करता है, इस प्रकार 2D मॉडल की पूरी क्षमता को उजागर करता है, और उन्हें 3D दुनिया में स्केल करने की रणनीति बनाता है। Uni3D ढांचे के लचीलेपन और मापनीयता को किसके संदर्भ में मापा जाता है

  1. मॉडल को स्केल करना 6M से एक अरब से अधिक पैरामीटर तक। 
  2. दृश्य से पर्यवेक्षित पाठ का 2डी आरंभीकरण स्व-पर्यवेक्षित शिक्षा
  3. टेक्स्ट-इमेज लक्ष्य मॉडल को 150 मिलियन से एक बिलियन पैरामीटर तक स्केल करना। 

Uni3D द्वारा पेश किए गए लचीले और एकीकृत ढांचे के तहत, जब प्रत्येक घटक को स्केल करने की बात आती है, तो डेवलपर्स प्रदर्शन में सुसंगत वृद्धि देखते हैं। बड़े पैमाने पर 3डी प्रतिनिधित्व सीखने को साझा करने योग्य 2डी और स्केल-अप रणनीतियों से भी काफी लाभ मिलता है। 

जैसा कि नीचे दिए गए चित्र में देखा जा सकता है, Uni3D फ्रेमवर्क कुछ-शॉट और शून्य-शॉट सेटिंग्स में पूर्व कला की तुलना में प्रदर्शन में वृद्धि दर्शाता है। यह ध्यान देने योग्य है कि Uni3D फ्रेमवर्क मॉडलनेट पर 88% से अधिक का शून्य-शॉट वर्गीकरण सटीकता स्कोर देता है जो कई अत्याधुनिक पर्यवेक्षण विधियों के प्रदर्शन के बराबर है। 

इसके अलावा, Uni3D फ्रेमवर्क अन्य प्रतिनिधि 3D कार्यों जैसे पार्ट सेगमेंटेशन और खुली दुनिया की समझ को निष्पादित करते समय शीर्ष पायदान की सटीकता और प्रदर्शन भी प्रदान करता है। Uni3D फ्रेमवर्क का उद्देश्य कार्यों की एक विस्तृत श्रृंखला में अधिक मजबूत 2D अभ्यावेदन सीखने के लिए एक एकीकृत लेकिन सरल पूर्व-प्रशिक्षण दृष्टिकोण के साथ 3D मूलभूत मॉडल को स्केल करके 3D दृष्टि और 3D दृष्टि के बीच अंतर को पाटना है, जो अंततः 2D के अभिसरण में मदद कर सकता है। और तौर-तरीकों की एक विस्तृत श्रृंखला में 3डी दृष्टि।

Uni3D: संबंधित कार्य

Uni3D ढांचा प्रेरणा लेता है, और पिछले 3D प्रतिनिधित्व सीखने और विशेष रूप से विभिन्न तौर-तरीकों के तहत मूलभूत मॉडल द्वारा किए गए विकास से सीखता है। 

3डी प्रतिनिधित्व सीखना

3डी प्रतिनिधित्व सीखने की विधि वस्तु की 3डी समझ के लिए क्लाउड बिंदुओं का उपयोग करती है, और इस क्षेत्र को हाल ही में डेवलपर्स द्वारा बहुत खोजा गया है, और यह देखा गया है कि इन क्लाउड बिंदुओं को विशिष्ट का उपयोग करके स्व-पर्यवेक्षण के तहत पूर्व-प्रशिक्षित किया जा सकता है। मास्क पॉइंट मॉडलिंग, स्व-पुनर्निर्माण और कंट्रास्टिव लर्निंग सहित 3डी प्रीटेक्स्ट कार्य। 

यह ध्यान देने योग्य है कि ये विधियाँ सीमित डेटा के साथ काम करती हैं, और वे अक्सर 3डी या एनएलपी से 2डी में मल्टीमॉडल अभ्यावेदन की जांच नहीं करती हैं। हालाँकि, सीएलआईपी फ्रेमवर्क की हालिया सफलता, जो विपरीत शिक्षण पद्धति का उपयोग करके कच्चे पाठ से दृश्य अवधारणाओं को सीखने में उच्च दक्षता प्रदान करती है, और आगे उसी विपरीत शिक्षण पद्धति का उपयोग करके छवि, पाठ और क्लाउड बिंदु सुविधाओं को संरेखित करके 3 डी अभ्यावेदन सीखने का प्रयास करती है। 

फाउंडेशन मॉडल

डेवलपर्स मल्टीमॉडल अभ्यावेदन को बढ़ाने और एकीकृत करने के लिए फाउंडेशन मॉडल डिजाइन करने पर व्यापक रूप से काम कर रहे हैं। उदाहरण के लिए, एनएलपी डोमेन में, डेवलपर्स ऐसे फ्रेमवर्क पर काम कर रहे हैं जो पूर्व-प्रशिक्षित भाषा मॉडल को बढ़ा सकते हैं, और यह धीरे-धीरे एनएलपी उद्योग में क्रांति ला रहा है। इसके अलावा, 2डी विज़न डोमेन में भी प्रगति देखी जा सकती है क्योंकि डेवलपर्स ऐसे फ्रेमवर्क पर काम कर रहे हैं जो भाषा को 2डी मॉडल में आगे बढ़ाने में मदद करने के लिए डेटा और मॉडल स्केलिंग तकनीकों का उपयोग करते हैं, हालांकि ऐसे फ्रेमवर्क को 3डी मॉडल के लिए दोहराना मुश्किल है क्योंकि 3डी डेटा की सीमित उपलब्धता, और 3डी फ्रेमवर्क को एकीकृत और विस्तारित करते समय आने वाली चुनौतियाँ। 

उपरोक्त दो कार्य डोमेन से सीखकर, डेवलपर्स ने बनाया है Uni3D फ्रेमवर्क, एक अरब से अधिक मापदंडों वाला पहला 3D फाउंडेशन मॉडल जो एकीकृत ViT या विज़न ट्रांसफार्मर आर्किटेक्चर का उपयोग करता है जो डेवलपर्स को मॉडल को बढ़ाने के लिए एकीकृत 3D या NLP रणनीतियों का उपयोग करके Uni3D मॉडल को स्केल करने की अनुमति देता है। डेवलपर्स को उम्मीद है कि यह विधि Uni3D ढांचे को उस अंतर को पाटने की अनुमति देगी जो वर्तमान में मल्टीमॉडल अभिसरण की सुविधा के साथ-साथ 2D और 3D दृष्टि को अलग करती है।

Uni3D: विधि और वास्तुकला

उपरोक्त छवि Uni3D ढांचे का सामान्य अवलोकन दर्शाती है, जो बड़े पैमाने पर 3D प्रतिनिधित्व सीखने के लिए एक स्केलेबल और एकीकृत पूर्व-प्रशिक्षण 3D ढांचा है। डेवलपर्स Uni70D ढांचे को एक अरब से अधिक मापदंडों तक स्केल करने के लिए 10 मिलियन से अधिक टेक्स्ट और एक मिलियन से अधिक 3D आकृतियों के साथ जोड़ी गई 3 मिलियन छवियों का उपयोग करते हैं। Uni3D फ्रेमवर्क एक 2D एनकोडर के रूप में 3D ViT या विज़न ट्रांसफार्मर का उपयोग करता है जिसे 3D क्लाउड पॉइंट सुविधाओं के साथ टेक्स्ट-इमेज डेटा को संरेखित करने के लिए एंड-टू-एंड प्रशिक्षित किया जाता है, जिससे Uni3D फ्रेमवर्क को वांछित दक्षता और सटीकता प्रदान करने की अनुमति मिलती है। बेंचमार्क की विस्तृत श्रृंखला। आइए अब Uni3D ढांचे की कार्यप्रणाली पर एक विस्तृत नज़र डालें। 

Uni3D फ्रेमवर्क को स्केल करना

क्लाउड पॉइंट प्रतिनिधित्व सीखने पर पहले के अध्ययनों ने परंपरागत रूप से विशेष मॉडल आर्किटेक्चर को डिजाइन करने पर भारी ध्यान केंद्रित किया है जो अनुप्रयोगों की एक विस्तृत श्रृंखला में बेहतर प्रदर्शन प्रदान करता है, और छोटे पैमाने के डेटासेट के लिए सीमित मात्रा में डेटा पर काम करता है। हालाँकि, हाल के अध्ययनों ने 3डी में स्केलेबल प्री-ट्रेनिंग का उपयोग करने की संभावना तलाशने की कोशिश की है, लेकिन सीमित 3डी डेटा की उपलब्धता के कारण कोई बड़ा परिणाम नहीं निकला। 3डी फ्रेमवर्क की स्केलेबिलिटी समस्या को हल करने के लिए, यूनी3डी फ्रेमवर्क एक वेनिला ट्रांसफार्मर संरचना की शक्ति का लाभ उठाता है जो लगभग एक विजन ट्रांसफार्मर को प्रतिबिंबित करता है, और मॉडल आकार को स्केल करने के लिए एकीकृत 2डी या एनएलपी स्केलिंग-अप रणनीतियों का उपयोग करके स्केलिंग समस्याओं को हल कर सकता है। 

क्लाउड पॉइंट प्रतिनिधित्व सीखने पर पहले के अध्ययनों ने परंपरागत रूप से विशेष मॉडल आर्किटेक्चर को डिजाइन करने पर भारी ध्यान केंद्रित किया है जो अनुप्रयोगों की एक विस्तृत श्रृंखला में बेहतर प्रदर्शन प्रदान करता है, और छोटे पैमाने के डेटासेट के लिए सीमित मात्रा में डेटा पर काम करता है। हालाँकि, हाल के अध्ययनों ने 3डी में स्केलेबल प्री-ट्रेनिंग का उपयोग करने की संभावना तलाशने की कोशिश की है, लेकिन सीमित 3डी डेटा की उपलब्धता के कारण कोई बड़ा परिणाम नहीं निकला। 3डी फ्रेमवर्क की स्केलेबिलिटी समस्या को हल करने के लिए, यूनी3डी फ्रेमवर्क एक वेनिला ट्रांसफार्मर संरचना की शक्ति का लाभ उठाता है जो लगभग एक विजन ट्रांसफार्मर को प्रतिबिंबित करता है, और मॉडल आकार को स्केल करने के लिए एकीकृत 2डी या एनएलपी स्केलिंग-अप रणनीतियों का उपयोग करके स्केलिंग समस्याओं को हल कर सकता है। 

Uni3D प्रारंभ किया जा रहा है

पूर्व कार्यों में सामने आई एक और बड़ी चुनौती 3डी अभ्यावेदन की स्केलिंग, अभिसरण में कठिनाइयाँ और ओवरफिटिंग थी जो मॉडलों के बड़े आकार का परिणाम थी। इस बाधा को दूर करने के लिए एक प्रभावी तरीका निर्दिष्ट 3डी प्रीटेक्स्ट कार्यों के साथ व्यक्तिगत 3डी बैकबोन को पूर्व-प्रशिक्षित करना और पूर्व-प्रशिक्षित मापदंडों को आरंभ करना है। हालाँकि, यह दृष्टिकोण उच्च प्रशिक्षण लागत के साथ है, और प्रशिक्षण उद्देश्यों के लिए उपलब्ध 3डी डेटा की सीमित मात्रा के कारण क्रॉस-मोडल सीखने के लिए एक मजबूत आरंभीकरण स्थापित करना भी मुश्किल है। 

Uni3D ढांचा एक वेनिला ट्रांसफार्मर का लाभ उठाता है, जिसकी संरचना काफी हद तक ViT से मिलती जुलती है। इस दृष्टिकोण के साथ, Uni3D ढांचा स्वाभाविक रूप से Uni3D ढांचे को आरंभ करने के लिए अन्य तौर-तरीकों के साथ पूर्व-प्रशिक्षित बड़े मॉडल को अपना सकता है। 

मल्टी-मॉडल संरेखण

Uni3D फ्रेमवर्क ओपनशेप और यूलिप फ्रेमवर्क के समान प्रतिमानों का उपयोग करके छवि, भाषा और बिंदु बादलों में मल्टी-मॉडल संरेखण सीखने का प्रयास करता है। इसके अलावा, अन्य तरीकों के साथ निष्पक्ष तुलना सुनिश्चित करने के लिए, Uni3D फ्रेमवर्क प्रशिक्षण उद्देश्यों के लिए OpenShape द्वारा एकत्रित 3D डेटासेट का उपयोग करता है। OpenShape के इस सम्मिलित डेटासेट में 4 3D डेटासेट शामिल हैं: 

  1. ओब्जेवर्स। 
  2. शेपनेट। 
  3. 3डी-भविष्य। 
  4. एबीओ. 

प्रयोग और परिणाम

Uni3D फ्रेमवर्क का परीक्षण विभिन्न सेटिंग्स और विभिन्न वर्गीकरण कार्यों में किया जाता है, जिसमें शून्य-शॉट और कुछ-शॉट सेटिंग्स में इसका प्रदर्शन, खुली दुनिया की समझ के आसपास परिणाम और बहुत कुछ शामिल है। आइए इन नतीजों पर विस्तार से नजर डालते हैं.

शून्य शॉट आकार वर्गीकरण

शून्य-शॉट आकार वर्गीकरण कार्यों में Uni3D ढांचे के प्रदर्शन का मूल्यांकन करने के लिए, डेवलपर्स मॉडलनेट, स्कैनओबीजेएनएन और ओब्जैवर्स-एलवीआईएस बेंचमार्क डेटासेट सहित तीन बेंचमार्क पर प्रयोग करते हैं। मॉडलनेट, और स्कैनओबीजेएनएन वर्गीकरण कार्यों के लिए व्यापक रूप से उपयोग किए जाने वाले डेटासेट हैं, और इनमें क्रमशः 15, और 40 ऑब्जेक्ट श्रेणियां शामिल हैं, जबकि ओब्जैवर्स-एलवीआईएस बेंचमार्क एक साफ और एनोटेटेड डेटासेट है जिसमें 40,000+ श्रेणियों में 1,100 से अधिक ऑब्जेक्ट शामिल हैं। फ्रेमवर्क के बीच तुलना नीचे दी गई छवि में प्रदर्शित की गई है, और जैसा कि देखा जा सकता है, Uni3D फ्रेमवर्क विभिन्न सेटिंग्स में कला फ्रेमवर्क की पिछली स्थिति से काफी बेहतर प्रदर्शन करता है। 

फ्यू-शॉट लीनियर प्रोबिंग

एआई में, लीनियर प्रोबिंग एक सामान्य विधि है जिसका उपयोग किसी ढांचे या मॉडल द्वारा सीखे गए अभ्यावेदन का मूल्यांकन करने के लिए किया जाता है। Uni3D की रैखिक जांच क्षमता का मूल्यांकन करने के लिए, डेवलपर्स OpenShape जैसी सामान्य सेटिंग्स का उपयोग करके Uni3D ढांचे के मापदंडों को फ्रीज कर देते हैं। इसके बाद, डेवलपर्स कुछ-शॉट क्लास लेबल का उपयोग करके Uni3D के लिए एक रैखिक क्लासिफायरियर को प्रशिक्षित करते हैं। नीचे दिया गया आंकड़ा ओब्जावर्स-एलवीआईएस डेटासेट पर विभिन्न ढांचे की रैखिक जांच क्षमता को दर्शाता है, और 10 यादृच्छिक बीजों में मॉडल के औसत प्रदर्शन को दर्शाता है। जैसा कि देखा जा सकता है, Uni3D फ्रेमवर्क अलग-अलग कुछ-शॉट सेटिंग्स के तहत मौजूदा तरीकों से बेहतर प्रदर्शन करता है। 

खुली दुनिया की समझ

वास्तविक समय में वास्तविक दुनिया की आकृतियों और वस्तुओं को समझने के लिए Uni3D ढांचे की क्षमता का मूल्यांकन करने के लिए, डेवलपर्स Uni3D के प्रदर्शन का पता लगाने के लिए स्कैननेट और CLIP डेटासेट का उपयोग करते हैं। यह ध्यान देने योग्य है कि जमीनी सच्चाई तत्काल विभाजन उपलब्ध है, और प्राथमिक उद्देश्य शून्य-शॉट सेटिंग में प्रत्येक दृश्य के व्यक्तिगत तत्काल की श्रेणी को पहचानना है। परिणाम नीचे दी गई छवि में प्रदर्शित किए गए हैं। जैसा कि देखा जा सकता है, वास्तविक दुनिया की समझ और पहचान का प्रदर्शन करते समय Uni3D ढांचा असाधारण परिणाम देता है। Uni3D फ्रेमवर्क वास्तविक दुनिया के डेटासेट पर कभी प्रशिक्षण न देने के बावजूद मौजूदा फ्रेमवर्क से काफी बेहतर प्रदर्शन करता है। 

क्रॉस-मोडल पुनर्प्राप्ति

Uni3D फ्रेमवर्क द्वारा सीखा गया मल्टी-मोडल अभ्यावेदन फ्रेमवर्क को टेक्स्ट या छवियों से स्वाभाविक रूप से 3D आकृतियों को पुनः प्राप्त करने की अनुमति दे सकता है। 3डी आकृतियों को पुनः प्राप्त करने के लिए, मॉडल 3डी आकृतियों के एम्बेडिंग और क्वेरी टेक्स्ट प्रॉम्प्ट या क्वेरी छवि के एम्बेडिंग के बीच कोसाइन समानता की गणना करता है। इसके बाद फ्रेमवर्क 3D आकार उत्पन्न करने के लिए KNN या K निकटतम पड़ोसी एल्गोरिदम का उपयोग करता है जो क्वेरी से सबसे अधिक मिलता जुलता है, और परिणाम नीचे दिए गए चित्र में दिखाए गए हैं। जैसा कि देखा जा सकता है, Uni3D फ्रेमवर्क 3D आकृतियों को पुनः प्राप्त करने के लिए वास्तविक दुनिया की छवियों का सफलतापूर्वक उपयोग करता है। इसके अलावा, यह ध्यान देने योग्य है कि प्रशिक्षण छवियां केवल प्रतिपादन उद्देश्यों के लिए हैं, और वास्तविक दुनिया और प्रशिक्षण छवियों के बीच का अंतर पर्याप्त है। इसके अतिरिक्त, मॉडल दो इनपुट छवियां भी लेता है, और दोनों छवियों के एम्बेडिंग औसत और उनके एम्बेडेड 3डी आकृतियों के बीच कोसाइन समानता का उपयोग करके दोनों इनपुट छवियों के समान आकार पुनर्प्राप्त करता है। परिणाम दिलचस्प हैं क्योंकि वे Uni3D की विविध 3D अभ्यावेदन सीखने और कई 2D संकेतों को समझने की क्षमता प्रदर्शित करते हैं। 

पहले कॉलम में, फ्रेमवर्क 2डी आकृतियाँ लौटाने के लिए 3 क्वेरी छवियों का उपयोग करता है जो क्वेरी छवियों के समान होती हैं। दूसरे कॉलम में, फ्रेमवर्क 3डी आकृतियों को पुनः प्राप्त करने के लिए दो इनपुट छवियों का उपयोग करता है जो दोनों इनपुट छवियों से मिलती जुलती हैं। अंत में, अंतिम कॉलम में, मॉडल क्वेरी टेक्स्ट का उपयोग करता है, और 3डी आकृतियाँ लौटाता है जो टेक्स्ट क्वेरी से अधिकतम मिलती-जुलती हैं। 

निष्कर्ष

इस लेख में, हमने Uni3D के बारे में बात की है, जो एक स्केलेबल और एकीकृत प्रीट्रेनिंग 3D फ्रेमवर्क है, जिसे बड़े पैमाने पर 3D अभ्यावेदन सीखने के उद्देश्य से विकसित किया गया है, जो एक अरब से अधिक मापदंडों के पैमाने पर अपनी सीमाओं का परीक्षण करता है, 10 मिलियन से अधिक छवियों को 70 मिलियन से अधिक के साथ जोड़ा जाता है। पाठ, और दस लाख से अधिक 3D आकृतियाँ। फ्रेमवर्क के डेवलपर्स ने वीआईटी के समतुल्य संरचना के साथ एक वेनिला ट्रांसफार्मर को शामिल किया है जो उन्हें एकीकृत 3डी या एनएलपी स्केलिंग रणनीतियों का उपयोग करके यूनी2डी फ्रेमवर्क को स्केल करने की अनुमति देता है। इसके अलावा, Uni3D फ्रेमवर्क 2D दुनिया में पूर्व-प्रशिक्षित 2D फ्रेमवर्क और 3D रणनीतियों की एक विस्तृत श्रृंखला का लाभ उठा सकता है। प्रायोगिक परिणामों ने पहले ही Uni3D ढांचे की विशाल क्षमता का प्रदर्शन किया है क्योंकि Uni3D ढांचा सेटिंग्स की एक विस्तृत श्रृंखला में सटीक और कुशल परिणाम देता है, और मौजूदा अत्याधुनिक ढांचे से बेहतर प्रदर्शन करता है। 

"पेशे से एक इंजीनियर, दिल से एक लेखक"। कुणाल एआई और एमएल के प्रति गहरा प्रेम और समझ रखने वाले एक तकनीकी लेखक हैं, जो अपने आकर्षक और सूचनात्मक दस्तावेज़ीकरण के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।