sơ khai Uni3D: Khám phá cách trình bày 3D hợp nhất ở quy mô lớn - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Uni3D: Khám phá cách trình bày 3D hợp nhất ở quy mô lớn

mm
cập nhật on

Mở rộng quy mô thể hiện văn bản và hình ảnh là trọng tâm nghiên cứu chính trong những năm gần đây. Sự phát triển và nghiên cứu được thực hiện trong thời gian gần đây đã dẫn đến nhiều cuộc cách mạng trong việc học ngôn ngữ và tầm nhìn. Tuy nhiên, bất chấp sự phổ biến của việc chia tỷ lệ văn bản và biểu diễn trực quan, việc chia tỷ lệ biểu diễn cho cảnh và đối tượng 3D vẫn chưa được thảo luận đầy đủ.

Hôm nay, chúng ta sẽ thảo luận về Uni3D, một mô hình nền tảng 3D nhằm khám phá các biểu diễn 3D thống nhất. Khung Uni3D sử dụng khung ViT được khởi tạo 2D, được đào tạo trước từ đầu đến cuối, để căn chỉnh các tính năng văn bản-hình ảnh với các tính năng đám mây điểm 3D tương ứng của chúng.

Khung Uni3D sử dụng các tác vụ giả định và kiến ​​trúc đơn giản để tận dụng sự phong phú của các mô hình 2D được huấn luyện trước và các mô hình được căn chỉnh theo văn bản hình ảnh tương ứng làm mục tiêu khởi tạo và mục tiêu. Cách tiếp cận này giải phóng toàn bộ tiềm năng của các mô hình và chiến lược 2D để mở rộng chúng sang thế giới 3D.

Trong bài viết này chúng ta sẽ tìm hiểu sâu hơn về 3D thị giác máy tính và khung Uni3D, khám phá các khái niệm thiết yếu và kiến ​​trúc của mô hình. Vì vậy, hãy bắt đầu.

Học cách biểu diễn Uni3D và 3D: Giới thiệu

Trong vài năm qua, thị giác máy tính đã nổi lên như một trong những lĩnh vực được đầu tư nhiều nhất trong ngành AI. Sau những tiến bộ đáng kể trong khung thị giác máy tính 2D, các nhà phát triển đã chuyển trọng tâm sang thị giác máy tính 3D. Lĩnh vực này, đặc biệt là học biểu diễn 3D, kết hợp các khía cạnh của đồ họa máy tính, học máy, thị giác máy tính và toán học để tự động hóa quá trình xử lý và hiểu hình học 3D. Sự phát triển nhanh chóng của các cảm biến 3D như LiDAR, cùng với các ứng dụng rộng rãi của chúng trong ngành AR/VR, đã khiến việc học biểu diễn 3D ngày càng được chú ý nhiều hơn. Các ứng dụng tiềm năng của nó tiếp tục phát triển hàng ngày.

Mặc dù các khuôn khổ hiện tại đã cho thấy sự tiến bộ đáng chú ý trong kiến ​​trúc mô hình 3D, mô hình hóa hướng nhiệm vụ và mục tiêu học tập, nhưng hầu hết đều khám phá kiến ​​trúc 3D ở quy mô tương đối nhỏ với dữ liệu, tham số và kịch bản nhiệm vụ hạn chế. Thách thức của việc học các biểu diễn 3D có thể mở rộng, sau đó có thể áp dụng cho các ứng dụng thời gian thực trong các môi trường khác nhau, phần lớn vẫn chưa được khám phá.

Trong vài năm qua, việc mở rộng quy mô mô hình ngôn ngữ lớn được đào tạo trước đã giúp cách mạng hóa xử lý ngôn ngữ tự nhiên tên miền và các tác phẩm gần đây đã chỉ ra bản dịch đang trong quá trình chuyển sang 2D từ ngôn ngữ sử dụng dữ liệu và chia tỷ lệ mô hình, giúp các nhà phát triển thử & thử lại thành công này để tìm hiểu cách trình bày 3D có thể được chia tỷ lệ và chuyển sang các ứng dụng trong thế giới thực. 

Uni3D là một khung 3D đào tạo trước thống nhất và có thể mở rộng, được phát triển với mục đích tìm hiểu các biểu diễn 3D quy mô lớn nhằm kiểm tra các giới hạn của nó ở quy mô hơn một tỷ tham số, hơn 10 triệu hình ảnh được ghép nối với hơn 70 triệu văn bản và hơn một triệu hình dạng 3D . Hình bên dưới so sánh độ chính xác của cú bắn 3 với các tham số trong khung Uni3D. Khung Uni3D có thể mở rộng quy mô thành công các biểu diễn 6D từ XNUMX triệu lên hơn một tỷ. 

Khung Uni3D bao gồm ViT 2D hoặc Máy biến áp tầm nhìn là bộ mã hóa 3D, sau đó được đào tạo từ đầu đến cuối để căn chỉnh các tính năng căn chỉnh văn bản-hình ảnh với các tính năng đám mây điểm 3D. Khung Uni3D sử dụng các tác vụ giả định và kiến ​​trúc đơn giản để tận dụng sự phong phú của các mô hình 2D được đào tạo trước và các mô hình căn chỉnh văn bản hình ảnh làm khởi tạo và mục tiêu tương ứng, từ đó giải phóng toàn bộ tiềm năng của các mô hình 2D và các chiến lược để mở rộng chúng sang thế giới 3D. Tính linh hoạt và khả năng mở rộng của khung Uni3D được đo lường bằng

  1. Chia tỷ lệ mô hình từ 6M đến hơn một tỷ thông số. 
  2. Khởi tạo 2D thành văn bản được giám sát từ trực quan học tập tự giám sát
  3. Mô hình mục tiêu hình ảnh văn bản có quy mô từ 150 triệu đến hơn một tỷ tham số. 

Trong khuôn khổ linh hoạt và thống nhất do Uni3D cung cấp, các nhà phát triển nhận thấy hiệu suất tăng lên rõ rệt khi mở rộng quy mô từng thành phần. Việc học biểu diễn 3D quy mô lớn cũng được hưởng lợi rất nhiều từ các chiến lược mở rộng quy mô và 2D có thể chia sẻ. 

Như có thể thấy trong hình bên dưới, khung Uni3D hiển thị hiệu suất tăng lên khi so sánh với nghệ thuật trước đó trong cài đặt ít ảnh và không ảnh. Điều đáng chú ý là khung Uni3D trả về điểm chính xác phân loại bằng 88 trên XNUMX% trên ModelNet, ngang bằng với hiệu suất của một số phương pháp giám sát hiện đại. 

Hơn nữa, khung Uni3D cũng mang lại độ chính xác và hiệu suất cao nhất khi thực hiện các tác vụ 3D tiêu biểu khác như phân đoạn bộ phận và hiểu biết về thế giới mở. Khung Uni3D nhằm mục đích thu hẹp khoảng cách giữa tầm nhìn 2D và tầm nhìn 3D bằng cách mở rộng các mô hình nền tảng 3D với cách tiếp cận đào tạo trước thống nhất nhưng đơn giản để tìm hiểu các cách biểu diễn 3D mạnh mẽ hơn trong một loạt các nhiệm vụ, điều này cuối cùng có thể giúp hội tụ 2D và tầm nhìn 3D trên một loạt các phương thức.

Uni3D : Công việc liên quan

Khung Uni3D lấy cảm hứng và học hỏi từ những phát triển được thực hiện bằng cách học biểu diễn 3D trước đó và các mô hình Cơ bản, đặc biệt là theo các phương thức khác nhau. 

Học biểu diễn 3D

Phương pháp học biểu diễn 3D sử dụng các điểm đám mây để hiểu đối tượng 3D và lĩnh vực này đã được các nhà phát triển khám phá rất nhiều trong thời gian gần đây và người ta nhận thấy rằng các điểm đám mây này có thể được đào tạo trước dưới sự tự giám sát bằng cách sử dụng cụ thể Nhiệm vụ giả định 3D bao gồm mô hình hóa điểm mặt nạ, tự tái tạo và học tập tương phản. 

Điều đáng chú ý là các phương pháp này hoạt động với dữ liệu hạn chế và chúng thường không điều tra các biểu diễn đa phương thức sang 3D từ 2D hoặc NLP. Tuy nhiên, thành công gần đây của khung CLIP mang lại hiệu quả cao trong việc học các khái niệm trực quan từ văn bản thô bằng phương pháp học tương phản và tiếp tục tìm cách học các biểu diễn 3D bằng cách căn chỉnh các tính năng hình ảnh, văn bản và điểm đám mây bằng cùng một phương pháp học tương phản. 

Mô hình nền tảng

Các nhà phát triển đã nỗ lực hết sức để thiết kế các mô hình nền tảng để mở rộng quy mô và thống nhất các biểu diễn đa phương thức. Ví dụ: trong miền NLP, các nhà phát triển đã và đang làm việc trên các khung có thể mở rộng quy mô các mô hình ngôn ngữ được đào tạo trước và nó đang dần cách mạng hóa ngành công nghiệp NLP. Hơn nữa, những tiến bộ cũng có thể được quan sát thấy trong lĩnh vực thị giác 2D vì các nhà phát triển đang làm việc trên các khung sử dụng kỹ thuật chia tỷ lệ mô hình và dữ liệu để hỗ trợ quá trình chuyển đổi ngôn ngữ sang mô hình 2D, mặc dù các khung như vậy rất khó sao chép cho các mô hình 3D vì tính khả dụng hạn chế của dữ liệu 3D và những thách thức gặp phải khi thống nhất và mở rộng quy mô khung 3D. 

Bằng cách học hỏi từ hai lĩnh vực công việc trên, các nhà phát triển đã tạo ra khung Uni3D, mô hình nền tảng 3D đầu tiên với hơn một tỷ tham số sử dụng kiến ​​trúc ViT hoặc Vision Transformer thống nhất cho phép các nhà phát triển mở rộng quy mô mô hình Uni3D bằng cách sử dụng các chiến lược 3D hoặc NLP thống nhất để mở rộng quy mô mô hình. Các nhà phát triển hy vọng rằng phương pháp này sẽ cho phép khung Uni3D thu hẹp khoảng cách hiện đang ngăn cách tầm nhìn 2D và 3D cùng với việc tạo điều kiện cho sự hội tụ đa phương thức

Uni3D : Phương pháp và kiến ​​trúc

Hình ảnh trên thể hiện tổng quan chung về khung Uni3D, một khung 3D đào tạo trước có thể mở rộng và thống nhất để học biểu diễn 3D quy mô lớn. Các nhà phát triển sử dụng hơn 70 triệu văn bản và 10 triệu hình ảnh được ghép nối với hơn một triệu hình dạng 3D để mở rộng khung Uni3D lên hơn một tỷ tham số. Khung Uni3D sử dụng 2D ViT hoặc Vision Transformer làm bộ mã hóa 3D, sau đó được đào tạo từ đầu đến cuối để căn chỉnh dữ liệu hình ảnh văn bản với các tính năng điểm đám mây 3D, cho phép khung Uni3D mang lại hiệu quả và độ chính xác mong muốn trên một phạm vi rộng. một loạt các điểm chuẩn. Bây giờ chúng ta hãy xem xét chi tiết hoạt động của khung Uni3D. 

Mở rộng khung Uni3D

Các nghiên cứu trước đây về học biểu diễn điểm trên đám mây thường tập trung chủ yếu vào việc thiết kế các kiến ​​trúc mô hình cụ thể mang lại hiệu suất tốt hơn trên nhiều ứng dụng và hoạt động trên một lượng dữ liệu hạn chế nhờ các bộ dữ liệu quy mô nhỏ. Tuy nhiên, các nghiên cứu gần đây đã thử khám phá khả năng sử dụng đào tạo trước có thể mở rộng trong 3D nhưng không đạt được kết quả quan trọng nào do dữ liệu 3D có sẵn hạn chế. Để giải quyết vấn đề về khả năng mở rộng của khung 3D, khung Uni3D tận dụng sức mạnh của cấu trúc biến áp vanilla gần như phản chiếu Vision Transformer và có thể giải quyết các vấn đề về tỷ lệ bằng cách sử dụng các chiến lược mở rộng quy mô 2D hoặc NLP thống nhất để mở rộng quy mô mô hình. 

Các nghiên cứu trước đây về học biểu diễn điểm trên đám mây thường tập trung chủ yếu vào việc thiết kế các kiến ​​trúc mô hình cụ thể mang lại hiệu suất tốt hơn trên nhiều ứng dụng và hoạt động trên một lượng dữ liệu hạn chế nhờ các bộ dữ liệu quy mô nhỏ. Tuy nhiên, các nghiên cứu gần đây đã thử khám phá khả năng sử dụng đào tạo trước có thể mở rộng trong 3D nhưng không đạt được kết quả quan trọng nào do dữ liệu 3D có sẵn hạn chế. Để giải quyết vấn đề về khả năng mở rộng của khung 3D, khung Uni3D tận dụng sức mạnh của cấu trúc biến áp vanilla gần như phản chiếu Vision Transformer và có thể giải quyết các vấn đề về tỷ lệ bằng cách sử dụng các chiến lược mở rộng quy mô 2D hoặc NLP thống nhất để mở rộng quy mô mô hình. 

Đang khởi tạo Uni3D

Một thách thức lớn khác mà các công trình trước đây gặp phải liên quan đến việc mở rộng quy mô biểu diễn 3D, những khó khăn trong việc hội tụ và trang bị quá mức là kết quả của kích thước lớn của các mô hình. Một cách tiếp cận hiệu quả để vượt qua rào cản này là huấn luyện trước các khung 3D riêng lẻ với các tác vụ giả định 3D được chỉ định và khởi tạo các tham số được huấn luyện trước. Tuy nhiên, cách tiếp cận này đi kèm với chi phí đào tạo cao và cũng khó thiết lập khởi tạo mạnh mẽ cho việc học đa phương thức do lượng dữ liệu 3D có sẵn cho mục đích đào tạo còn hạn chế. 

Khung Uni3D tận dụng một máy biến áp vanilla, cấu trúc của nó gần giống với ViT. Với cách tiếp cận này, khung Uni3D có thể áp dụng các mô hình lớn được đào tạo trước một cách tự nhiên với các phương thức khác để khởi tạo khung Uni3D. 

Căn chỉnh đa phương thức

Khung Uni3D cố gắng tìm hiểu sự sắp xếp đa mô hình trên các đám mây hình ảnh, ngôn ngữ và điểm bằng cách sử dụng các mô hình tương tự như các khung OpenShape và ULIP. Hơn nữa, để đảm bảo so sánh công bằng với các phương pháp khác, khung Uni3D sử dụng bộ dữ liệu 3D tổng hợp của OpenShape cho mục đích đào tạo. Bộ dữ liệu tổng hợp này của OpenShape bao gồm 4 bộ dữ liệu 3D: 

  1. Ngược lại. 
  2. ShapeNet. 
  3. 3D-TƯƠNG LAI. 
  4. ABO 

Thí nghiệm và kết quả

Khung Uni3D được thử nghiệm trên nhiều cài đặt khác nhau và trên nhiều nhiệm vụ phân loại khác nhau, bao gồm hiệu suất của nó trong cài đặt không chụp và ít ảnh, kết quả xoay quanh sự hiểu biết về thế giới mở, v.v. Chúng ta hãy có một cái nhìn chi tiết về những kết quả này.

Phân loại hình dạng không bắn

Để đánh giá hiệu suất của khung Uni3D qua các nhiệm vụ phân loại hình dạng không cần bắn, các nhà phát triển tiến hành thử nghiệm trên ba điểm chuẩn bao gồm bộ dữ liệu điểm chuẩn ModelNet, ScanObjNN và Objaverse-LVIS. ModelNet và ScanObjNN là các bộ dữ liệu được sử dụng rộng rãi cho các nhiệm vụ phân loại và chúng lần lượt bao gồm 15 và 40 danh mục đối tượng, trong khi điểm chuẩn Objaverse-LVIS là một tập dữ liệu được làm sạch và chú thích bao gồm hơn 40,000 đối tượng trên hơn 1,100 danh mục. Sự so sánh giữa các khung được thể hiện trong hình ảnh bên dưới và như có thể thấy, khung Uni3D vượt trội đáng kể so với các khung hiện đại trước đây trên các cài đặt khác nhau. 

Thăm dò tuyến tính ít lần bắn

Trong AI, Thăm dò tuyến tính là một phương pháp phổ biến được sử dụng để đánh giá các biểu diễn mà một khung hoặc mô hình học được. Để đánh giá khả năng thăm dò tuyến tính của Uni3D, các nhà phát triển đóng băng các tham số của khung Uni3D bằng cách sử dụng các cài đặt chung là OpenShape. Sau đó, các nhà phát triển đào tạo bộ phân loại tuyến tính cho Uni3D bằng cách sử dụng các nhãn lớp ít lần chụp. Hình bên dưới thể hiện khả năng thăm dò tuyến tính của các khung khác nhau trên bộ dữ liệu Objaverse-LVIS và thể hiện hiệu suất trung bình của mô hình trên 10 hạt giống ngẫu nhiên. Có thể thấy, khung Uni3D vượt trội hơn đáng kể so với các phương pháp hiện có trong các cài đặt chụp vài lần khác nhau. 

Hiểu biết về thế giới mở

Để đánh giá khả năng của khung Uni3D trong việc hiểu các hình dạng và đối tượng trong thế giới thực trong thời gian thực, các nhà phát triển sử dụng bộ dữ liệu ScanNet và CLIP để khám phá hiệu suất của Uni3D. Điều đáng chú ý là tính năng phân đoạn tức thời thực tế có sẵn và mục đích chính là nhận ra danh mục khoảnh khắc riêng lẻ của mỗi cảnh trong bối cảnh không có cảnh quay. Kết quả được thể hiện trong hình ảnh dưới đây. Có thể thấy, khung Uni3D mang lại kết quả đặc biệt khi thực hiện hiểu và nhận dạng trong thế giới thực. Khung Uni3D vượt trội hơn các khung hiện có một cách đáng kể mặc dù chưa bao giờ được đào tạo về các bộ dữ liệu trong thế giới thực. 

Truy xuất đa phương thức

Các biểu diễn đa phương thức mà khung Uni3D học được có thể cho phép khung truy xuất các hình dạng 3D một cách tự nhiên từ văn bản hoặc hình ảnh. Để truy xuất các hình dạng 3D, mô hình sẽ tính toán độ tương tự cosine giữa các phần nhúng của hình dạng 3D và các phần nhúng của dấu nhắc văn bản truy vấn hoặc hình ảnh truy vấn. Sau đó, khung này sử dụng thuật toán KNN hoặc K Nearest Neighbor để tạo các hình dạng 3D giống với truy vấn nhất và kết quả được thể hiện trong hình bên dưới. Có thể thấy, khung Uni3D sử dụng thành công hình ảnh trong thế giới thực để truy xuất hình dạng 3D. Hơn nữa, điều đáng chú ý là hình ảnh đào tạo chỉ nhằm mục đích hiển thị và khoảng cách giữa hình ảnh trong thế giới thực và hình ảnh đào tạo là rất lớn. Ngoài ra, mô hình cũng lấy hai hình ảnh đầu vào và truy xuất các hình dạng tương tự với cả hai hình ảnh đầu vào bằng cách sử dụng độ tương tự cosin giữa mức trung bình nhúng của cả hai hình ảnh và hình dạng 3D được nhúng của chúng. Kết quả rất thú vị khi chúng chứng minh khả năng của Uni3D trong việc tìm hiểu các biểu diễn 3D đa dạng và nhận biết nhiều tín hiệu 2D. 

Ở cột đầu tiên, khung sử dụng 2 hình ảnh truy vấn để trả về các hình dạng 3D giống nhất với hình ảnh truy vấn. Trong cột thứ hai, khung sử dụng hai hình ảnh đầu vào để truy xuất các hình dạng 3D giống với cả hai hình ảnh đầu vào. Cuối cùng, trong cột cuối cùng, mô hình sử dụng văn bản truy vấn và trả về các hình dạng 3D giống với truy vấn văn bản ở mức tối đa. 

Kết luận:

Trong bài viết này, chúng ta đã nói về Uni3D, một khung 3D tiền huấn luyện thống nhất và có thể mở rộng được phát triển nhằm mục đích tìm hiểu các biểu diễn 3D quy mô lớn nhằm kiểm tra các giới hạn của nó ở quy mô hơn một tỷ tham số, hơn 10 triệu hình ảnh được ghép nối với hơn 70 triệu văn bản và hơn một triệu hình dạng 3D. Các nhà phát triển khung đã bao gồm một máy biến áp vanilla có cấu trúc tương đương với ViT, cho phép họ mở rộng quy mô khung Uni3D bằng cách sử dụng các chiến lược mở rộng quy mô 2D hoặc NLP thống nhất. Hơn nữa, khung Uni3D có thể tận dụng một loạt các khung 2D và chiến lược 2D được đào tạo trước cho thế giới 3D. Các kết quả thử nghiệm đã chứng minh tiềm năng to lớn của khung Uni3D khi khung Uni3D trả về kết quả chính xác và hiệu quả trên nhiều cài đặt và vượt trội so với các khung công nghệ tiên tiến hiện có. 

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.