בדל Uni3D: חקירת ייצוג תלת מימדי מאוחד בקנה מידה - Unite.AI
צור קשר

בינה מלאכותית

Uni3D: חקירת ייצוג תלת מימדי מאוחד בקנה מידה

mm
מְעוּדכָּן on

הגדלה של ייצוגים של טקסט וויזואלי הייתה מוקד מחקר מרכזי בשנים האחרונות. התפתחויות ומחקרים שנערכו בעבר הקרוב הובילו למהפכות רבות בלימוד השפה ובחזון. עם זאת, למרות הפופולריות של שינוי קנה מידה של טקסט וייצוגים חזותיים, קנה המידה של ייצוגים עבור סצנות ואובייקטים תלת מימדיים לא נדון מספיק.

היום, נדון ב-Uni3D, מודל בסיס תלת-ממדי שמטרתו לחקור ייצוגים תלת-ממדיים מאוחדים. המסגרת של Uni3D משתמשת במסגרת ViT מאותחלת ב-3D, מאומנת מראש מקצה לקצה, כדי ליישר את תכונות הטקסט של התמונה עם תכונות ענן הנקודות התלת-ממדיות המתאימות להן.

המסגרת של Uni3D משתמשת במשימות הסבר ובארכיטקטורה פשוטה כדי למנף את השפע של מודלים דו-ממדיים מאומנים מראש ומודלים מיושרים לטקסט תמונה כאתחולים ומטרות, בהתאמה. גישה זו משחררת את מלוא הפוטנציאל של מודלים ואסטרטגיות דו-ממדיות כדי להתאים אותם לעולם התלת-ממד.

במאמר זה נעמיק ב-3D ראיית מחשב ומסגרת Uni3D, בוחנת את המושגים החיוניים ואת הארכיטקטורה של המודל. אז בואו נתחיל.

למידת ייצוג Uni3D ותלת מימד: מבוא

בשנים האחרונות, ראיית מחשב התגלתה כאחד התחומים המושקעים ביותר בתעשיית הבינה המלאכותית. בעקבות התקדמות משמעותית במסגרות ראייה ממוחשבת דו-ממדית, מפתחים העבירו את המיקוד שלהם לראייה ממוחשבת תלת-ממדית. תחום זה, במיוחד למידת ייצוג תלת מימד, ממזג היבטים של גרפיקה ממוחשבת, למידת מכונה, ראייה ממוחשבת ומתמטיקה לאוטומציה של העיבוד וההבנה של גיאומטריה תלת מימדית. הפיתוח המהיר של חיישני תלת מימד כמו LiDAR, יחד עם היישומים הנרחבים שלהם בתעשיית ה-AR/VR, הביאו לכך שלמידת ייצוג תלת מימד זוכה לתשומת לב מוגברת. היישומים הפוטנציאליים שלו ממשיכים לגדול מדי יום.

למרות שמסגרות קיימות הראו התקדמות יוצאת דופן בארכיטקטורת מודלים תלת מימדיים, מידול מונחה משימות ויעדי למידה, רובן חוקרות ארכיטקטורת תלת מימד בקנה מידה קטן יחסית עם נתונים, פרמטרים ותרחישי משימות מוגבלים. האתגר של לימוד ייצוגי תלת מימד ניתנים להרחבה, שאותם ניתן ליישם על יישומי זמן אמת בסביבות מגוונות, נותר ברובו בלתי נחקר.

מתקדם, בשנים האחרונות, בקנה מידה מודלים גדולים לשפה שהוכשרו מראש סייעו לחולל מהפכה עיבוד שפה טבעית תחום, ועבודות אחרונות הצביעו על תרגום בהתקדמות ל-2D משפה באמצעות קנה מידה של נתונים ומודלים, מה שמפנה מקום למפתחים לנסות ולנסות מחדש את ההצלחה הזו כדי ללמוד ייצוג תלת-ממדי שניתן להגדיל ולהעביר ליישומים בעולם האמיתי. 

Uni3D היא מסגרת תלת מימדית ניתנת להרחבה ומאוחדת שפותחה במטרה ללמוד ייצוגים תלת מימדיים בקנה מידה גדול שבודקת את גבולותיה בקנה מידה של למעלה ממיליארד פרמטרים, למעלה מ-3 מיליון תמונות בשילוב עם למעלה מ-3 מיליון טקסטים, ולמעלה ממיליון צורות תלת מימדיות. . האיור שלהלן משווה את דיוק ה-10-shot מול פרמטרים במסגרת Uni70D. מסגרת Uni3D מדרגת בהצלחה ייצוגים תלת מימדיים מ-3 מיליון ליותר ממיליארד. 

מסגרת Uni3D מורכבת מ- 2D ViT or שנאי חזון כמקודד התלת-ממד שהוכשר מראש מקצה לקצה כדי ליישר את תכונות מיושרות התמונה-טקסט עם תכונות ענן הנקודות התלת-ממדיות. מסגרת Uni3D עושה שימוש במשימות הסבר ובארכיטקטורה פשוטה כדי למנף את השפע של מודלים דו-ממדיים מאומנים מראש ומודלים מיושרים לטקסט תמונה כאתחול ומטרות בהתאמה, ובכך לשחרר את מלוא הפוטנציאל של מודלים דו-ממדיים, ואסטרטגיות להרחיב אותם לעולם התלת-ממד. הגמישות והמדרגיות של מסגרת Uni3D נמדדת במונחים של

  1. קנה מידה של הדגם מ-6 מיליון ליותר ממיליארד פרמטרים. 
  2. אתחול דו מימדי לטקסט בפיקוח חזותי למידה בפיקוח עצמי
  3. קנה מידה של מודל יעד של טקסט-תמונה מ-150 מיליון ליותר ממיליארד פרמטרים. 

תחת המסגרת הגמישה והמאוחדת שמציעה Uni3D, מפתחים רואים דחיפה קוהרנטית בביצועים בכל הנוגע לשינוי קנה מידה של כל רכיב. למידת הייצוג התלת-ממדית בקנה מידה גדול גם נהנית מאוד מאסטרטגיות הדו-ממד וההגדלה הניתנות לשיתוף. 

כפי שניתן לראות באיור שלהלן, מסגרת Uni3D מציגה דחיפה בביצועים בהשוואה לאמנות קודמת בהגדרות של מספר צילומים ואפס. ראוי לציין כי המסגרת של Uni3D מחזירה ציון דיוק סיווג אפס של למעלה מ-88% ב-ModelNet, אשר שווה לביצועים של מספר שיטות פיקוח חדישות. 

יתר על כן, מסגרת Uni3D מספקת גם דיוק וביצועים ברמה הגבוהה ביותר בעת ביצוע משימות תלת מימד מייצגות אחרות כמו פילוח חלקים והבנת עולם פתוח. מסגרת ה-Uni3D שואפת לגשר על הפער בין ראייה דו-ממדית לראייה תלת-ממדית על-ידי שינוי קנה המידה של מודלים בסיסיים תלת-ממדיים עם גישה מאוחדת אך פשוטה של ​​הדרכה מראש כדי ללמוד ייצוגים תלת-ממדיים חזקים יותר על פני מגוון רחב של משימות, שעשויות בסופו של דבר לסייע בהתכנסות של דו-ממד. וראייה תלת מימדית על פני מגוון רחב של אופנים.

Uni3D: עבודה קשורה

המסגרת של Uni3D שואבת השראה, ולומדת מההתפתחויות שנעשו על ידי למידה קודמת של ייצוג תלת מימד, ומודלים יסודיים במיוחד בשיטות שונות. 

למידת ייצוג תלת מימד

שיטת לימוד הייצוג התלת-ממדית משתמשת בנקודות ענן להבנה תלת-ממדית של האובייקט, ותחום זה נחקר רבות על ידי מפתחים בעבר הקרוב, ונצפה שניתן לאמן מראש את נקודות הענן הללו תחת פיקוח עצמי באמצעות שימוש ספציפי משימות תירוץ תלת מימד כולל דוגמנות נקודות מסכה, שחזור עצמי ולמידה ניגודית. 

ראוי לציין ששיטות אלו עובדות עם נתונים מוגבלים, ולעתים קרובות הן אינן חוקרות ייצוגים מולטי-מודאליים לתלת-ממד מ-3D או NLP. עם זאת, ההצלחה האחרונה של מסגרת CLIP שמחזירה יעילות גבוהה בלימוד מושגים ויזואליים מטקסט גולמי באמצעות שיטת הלמידה הניגודית, ומבקשת עוד יותר ללמוד ייצוגים תלת מימדיים על ידי יישור תכונות תמונה, טקסט ונקודות ענן באמצעות אותה שיטת למידה ניגודית. 

דגמי יסוד

מפתחים עבדו באופן ממצה על עיצוב מודלים של בסיס כדי להגדיל ולאחד ייצוגים רב-מודאליים. לדוגמה, בתחום ה-NLP, מפתחים עבדו על מסגרות שיכולות להגדיל מודלים של שפה שהוכשרו מראש, וזה לאט לאט מחולל מהפכה בתעשיית ה-NLP. יתר על כן, ניתן להבחין בהתקדמות בתחום הראייה הדו-ממדית גם מכיוון שמפתחים עובדים על מסגרות המשתמשות בטכניקות קנה מידה של נתונים ומודלים כדי לסייע בהתקדמות של שפה למודלים דו-ממדיים, למרות שקשה לשכפל מסגרות כאלה עבור מודלים תלת-ממדיים בגלל זמינות מוגבלת של נתוני תלת-ממד, והאתגרים בהם נתקלים בעת איחוד והגדלת מסגרות התלת-ממד. 

על ידי למידה משני תחומי העבודה לעיל, מפתחים יצרו מסגרת Uni3D, מודל היסוד התלת-ממדי הראשון עם למעלה ממיליארד פרמטרים שעושה שימוש בארכיטקטורת ViT או Vision Transformer מאוחדת המאפשרת למפתחים להרחיב את מודל ה-Uni3D באמצעות אסטרטגיות תלת-ממד או NLP מאוחדות להגדלת המודלים. מפתחים מקווים ששיטה זו תאפשר למסגרת Uni3D לגשר על הפער שמפריד כיום בין ראייה דו-ממדית לתלת-ממדית יחד עם הקלה על התכנסות מולטי-מודאלית

Uni3D: שיטה וארכיטקטורה

התמונה שלמעלה מדגימה את הסקירה הכללית של מסגרת Uni3D, מסגרת תלת מימד ניתנת להרחבה ומאוחדת ללימוד ייצוג תלת מימד בקנה מידה גדול. מפתחים עושים שימוש בלמעלה מ-3 מיליון טקסטים, ו-3 מיליון תמונות בשילוב עם למעלה ממיליון צורות תלת-ממדיות כדי להתאים את מסגרת Uni70D ליותר ממיליארד פרמטרים. מסגרת ה-Uni10D משתמשת ב-3D ViT או Vision Transformer כמקודד תלת-ממד, אשר לאחר מכן מאומן מקצה לקצה כדי ליישר את נתוני הטקסט-תמונה עם תכונות נקודת הענן התלת-ממדיות, מה שמאפשר למסגרת Uni3D לספק את היעילות והדיוק הרצויים על פני מגוון רחב של אמות מידה. הבה נבחן כעת את פעולתה של מסגרת Uni3D. 

שינוי קנה מידה של Uni3D Framework

מחקרים קודמים על למידת ייצוג נקודות ענן התמקדו באופן מסורתי מאוד בתכנון ארכיטקטורות מודל מסוימות המספקות ביצועים טובים יותר במגוון רחב של יישומים, ועובדות על כמות מוגבלת של נתונים הודות למערכי נתונים בקנה מידה קטן. עם זאת, מחקרים עדכניים ניסו לבחון את האפשרות להשתמש באימון מקדים שניתן להרחבה בתלת-ממד, אך לא היו תוצאות משמעותיות הודות לזמינותם של נתוני תלת-ממד מוגבלים. כדי לפתור את בעיית המדרגיות של מסגרות תלת מימד, המסגרת של Uni3D ממנפת את הכוח של מבנה שנאי וניל שכמעט משקף שנאי Vision, ויכול לפתור את בעיות ההרחבה על ידי שימוש באסטרטגיות קנה מידה מאוחדות של 3D או NLP להגדלת גודל המודל. 

מחקרים קודמים על למידת ייצוג נקודות ענן התמקדו באופן מסורתי מאוד בתכנון ארכיטקטורות מודל מסוימות המספקות ביצועים טובים יותר במגוון רחב של יישומים, ועובדות על כמות מוגבלת של נתונים הודות למערכי נתונים בקנה מידה קטן. עם זאת, מחקרים עדכניים ניסו לבחון את האפשרות להשתמש באימון מקדים שניתן להרחבה בתלת-ממד, אך לא היו תוצאות משמעותיות הודות לזמינותם של נתוני תלת-ממד מוגבלים. כדי לפתור את בעיית המדרגיות של מסגרות תלת מימד, המסגרת של Uni3D ממנפת את הכוח של מבנה שנאי וניל שכמעט משקף שנאי Vision, ויכול לפתור את בעיות ההרחבה על ידי שימוש באסטרטגיות קנה מידה מאוחדות של 3D או NLP להגדלת גודל המודל. 

אתחול Uni3D

אתגר מרכזי נוסף בו נתקלו עבודות קודמות הקשורות בקנה מידה של ייצוגים תלת מימדיים, קשיי ההתכנסות והתאמת יתר שנבעו מהגודל הגדול של הדגמים. גישה יעילה להתגבר על מכשול זה היא אימון מראש של עמודי שדרה תלת-ממדיים בודדים עם משימות תואנה תלת-ממדיות שצוינו, ולאתחל פרמטרים מאומנים מראש. עם זאת, הגישה מלווה בעלויות הדרכה גבוהות, וקשה גם לבסס אתחול חזק ללמידה חוצת-מודאלית הודות לכמות מוגבלת של נתונים תלת-ממדיים הזמינים למטרות הדרכה. 

מסגרת Uni3D ממנפת שנאי וניל, שמבנהו דומה מאוד ל-ViT. עם גישה זו, המסגרת של Uni3D יכולה באופן טבעי לאמץ את המודלים הגדולים שהוכשרו מראש עם אופנים אחרים כדי לאתחל את המסגרת של Uni3D. 

יישור רב-מודאלי

המסגרת של Uni3D מנסה ללמוד יישור מודלים מרובים על פני תמונה, שפה וענני נקודות על ידי שימוש בפרדיגמות הדומות למסגרות OpenShape ו-ULIP. יתרה מזאת, כדי להבטיח השוואה הוגנת לשיטות אחרות, מסגרת Uni3D משתמשת במערך התלת-ממד המורכב של OpenShape למטרות הדרכה. מערך נתונים זה מאת OpenShape מורכב מ-3 מערכי נתונים תלת מימדיים: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-FUTURE. 
  4. אה בו. 

ניסויים ותוצאות

המסגרת של Uni3D נבדקת על פני הגדרות שונות, ועל פני משימות סיווג שונות, כולל הביצועים שלה בהגדרות אפס shot, ו-feat-shot, תוצאות סביב הבנות עולם פתוח ועוד. הבה נבחן את התוצאות הללו באופן מפורט.

סיווג צורת אפס שוט

כדי להעריך את הביצועים של מסגרת Uni3D על פני משימות סיווג צורה של צילום אפס, המפתחים עורכים ניסויים על פני שלושה מדדים כולל מערכי נתונים של ModelNet, ScanObjNN ו-Objaverse-LVIS. ModelNet ו-ScanObjNN הם מערכי נתונים הנמצאים בשימוש נרחב למשימות סיווג, והם מורכבים מ-15 ו-40 קטגוריות אובייקטים בהתאמה, בעוד שמדד Objaverse-LVIS הוא מערך נתונים מנוקים ומוער המורכב מיותר מ-40,000 אובייקטים ב-1,100+ קטגוריות. ההשוואה בין המסגרות מודגמת בתמונה למטה, וכפי שניתן לראות, המסגרת של Uni3D עולה בביצועים משמעותיים על המסגרות העדכניות ביותר על פני מסגרות שונות. 

חיטוט ליניארי של מועט-זריקות

ב-AI, בדיקה ליניארית היא שיטה נפוצה המשמשת להערכת הייצוגים שמסגרת או מודל לומדים. כדי להעריך את יכולת החיטוט הליניארית של Uni3D, המפתחים מקפיאים את הפרמטרים של מסגרת Uni3D תוך שימוש בהגדרות הנפוצות כ-OpenShape. בעקבות זאת, המפתחים מאמנים מסווג ליניארי עבור Uni3D באמצעות תוויות מחלקות מועטות. האיור שלהלן מדגים את יכולת החיטוט הליניארית של מסגרות שונות במערך הנתונים של Objaverse-LVIS, ומדגים את הביצועים הממוצעים של המודל על פני 10 זרעים אקראיים. כפי שניתן לראות, מסגרת Uni3D עולה בביצועים משמעותיים על השיטות הקיימות בהגדרות שונות של מספר צילומים. 

הבנת עולם פתוח

כדי להעריך את היכולת של מסגרת Uni3D להבין צורות ואובייקטים בעולם האמיתי בזמן אמת, מפתחים משתמשים ב-ScanNet ו-CLIP מערכי נתונים כדי לחקור את הביצועים של Uni3D. ראוי לציין שהפילוח המיידי של האמת הבסיסית זמין, והמניע העיקרי הוא לזהות את הקטגוריה של כל רגע אינדיבידואלי של כל סצנה בסביבה של צילום אפס. התוצאות מוצגות בתמונה למטה. כפי שניתן לראות, מסגרת Uni3D מספקת תוצאות יוצאות דופן בעת ​​ביצוע הבנה והכרה בעולם האמיתי. המסגרת של Uni3D עולה על מסגרות קיימות בפער משמעותי למרות שמעולם לא הכשרה על מערכי נתונים מהעולם האמיתי. 

אחזור מודולרי

הייצוגים הרב-מודאליים שנלמדו על ידי מסגרת Uni3D יכולים לאפשר למסגרת לאחזר צורות תלת ממדיות באופן טבעי מטקסטים או תמונות. כדי לאחזר את הצורות התלת-ממדיות, המודל מחשב את הדמיון הקוסינוס בין ההטמעות של צורות תלת-ממד, לבין ההטמעות של הודעת טקסט של שאילתה או תמונת שאילתה. לאחר מכן, המסגרת עושה שימוש באלגוריתם KNN או K Nearest Neighbour כדי ליצור צורות תלת-ממדיות הדומות ביותר לשאילתה, והתוצאות מוצגות באיור שלהלן. כפי שניתן לראות, מסגרת Uni3D משתמשת בהצלחה בתמונות מהעולם האמיתי כדי לאחזר צורות תלת ממדיות. יתר על כן, ראוי לציין שתמונות אימון הן רק למטרות רינדור, והפער בין תמונות מהעולם האמיתי לתמונות האימון הוא משמעותי. בנוסף, המודל גם לוקח שתי תמונות קלט, ומחזיר צורות הדומות לשתי תמונות הקלט על ידי שימוש בדמיון הקוסינוס בין ממוצעי ההטמעה של שתי התמונות ושל צורות התלת-ממד המוטבעות שלהן. התוצאות מעניינות מכיוון שהן מדגימות את היכולת של Uni3D ללמוד ייצוגים תלת מימדיים מגוונים, ולתפוס אותות דו מימד מרובים. 

בעמודה הראשונה, המסגרת משתמשת ב-2 תמונות שאילתה כדי להחזיר צורות תלת-ממדיות הדומות ביותר לתמונות השאילתה. בעמודה השנייה, המסגרת משתמשת בשתי תמונות קלט כדי לאחזר צורות תלת ממדיות הדומות לשתי תמונות הקלט. לבסוף, בעמודה האחרונה, המודל משתמש בטקסטים של שאילתות, ומחזיר צורות תלת-ממדיות הדומות למקסימום את שאילתת הטקסט. 

מחשבות סופיות

במאמר זה דיברנו על Uni3D, מסגרת תלת-ממדית ניתנת להרחבה ומאוחדת שפותחה במטרה ללמוד ייצוגים תלת-ממדיים בקנה מידה גדול שבודקת את גבולותיה בקנה מידה של למעלה ממיליארד פרמטרים, למעלה מ-3 מיליון תמונות בשילוב עם למעלה מ-3 מיליון. טקסטים, ויותר ממיליון צורות תלת מימדיות. מפתחי המסגרת כללו שנאי וניל עם המבנה שלו שווה ערך ל-ViTs המאפשר להם להגדיל את המסגרת Uni10D באמצעות אסטרטגיות קנה מידה 70D או NLP מאוחדות. יתר על כן, המסגרת של Uni3D יכולה למנף מגוון רחב של מסגרות דו-ממד ואסטרטגיות דו-ממד שהוכשרו מראש לעולם התלת-ממד. תוצאות הניסוי כבר הוכיחו את הפוטנציאל העצום של מסגרת Uni3D שכן המסגרת Uni2D מחזירה תוצאות מדויקות ויעילות על פני מגוון רחב של הגדרות, ועולה על המסגרת המתקדמת ביותר הקיימות. 

"מהנדס במקצועו, סופר בעל פה". קונאל הוא סופר טכני עם אהבה והבנה עמוקה של AI ו-ML, המוקדש לפישוט מושגים מורכבים בתחומים אלה באמצעות התיעוד המרתק והאינפורמטיבי שלו.