スタブ Uni3D: 大規模な統合 3D 表現の探求 - Unite.AI
私達と接続

人工知能

Uni3D: 大規模な統合 3D 表現の探求

mm
更新中 on

テキストとビジュアルの表現をスケールアップすることは、近年の研究の主な焦点となっています。 最近行われた開発と研究は、言語学習と視覚において数多くの革命をもたらしました。 しかし、テキストや視覚表現のスケーリングが普及しているにもかかわらず、3D シーンやオブジェクトの表現のスケーリングについては十分に議論されていません。

今日は、統一された 3D 表現を探ることを目的とした 3D 基礎モデルである Uni3D について説明します。 Uni3D フレームワークは、エンドツーエンドで事前トレーニングされた 2D 初期化 ViT フレームワークを採用し、画像テキスト特徴を対応する 3D 点群特徴と位置合わせします。

Uni3D フレームワークは、プリテキスト タスクとシンプルなアーキテクチャを使用して、豊富な事前トレーニング済み 2D モデルと画像とテキストが配置されたモデルをそれぞれ初期化とターゲットとして活用します。 このアプローチは、2D モデルとそれを 3D 世界にスケールするための戦略の可能性を最大限に引き出します。

この記事では、3D について詳しく説明します。 コンピュータビジョン Uni3D フレームワークを使用して、モデルの本質的な概念とアーキテクチャを調査します。 それでは、始めましょう。

Uni3D と 3D 表現の学習 : はじめに

ここ数年、コンピューター ビジョンは、AI 業界で最も多額の投資が行われている分野の 2 つとして浮上しています。 3D コンピュータ ビジョン フレームワークの大幅な進歩を受けて、開発者は 3D コンピュータ ビジョンに焦点を移しています。 この分野、特に XNUMXD 表現学習は、コンピュータ グラフィックスの側面を融合し、 機械学習、コンピューター ビジョン、数学を活用して、3D ジオメトリの処理と理解を自動化します。 LiDAR などの 3D センサーの急速な開発と、AR/VR 業界での応用の普及により、3D 表現学習への注目が高まっています。 その潜在的な用途は日々成長し続けています。

既存のフレームワークは 3D モデル アーキテクチャ、タスク指向モデリング、および学習目標において目覚ましい進歩を示していますが、ほとんどのフレームワークは、限られたデータ、パラメータ、タスク シナリオを使用して比較的小規模な 3D アーキテクチャを検討しています。 さまざまな環境でリアルタイム アプリケーションに適用できるスケーラブルな 3D 表現を学習するという課題は、ほとんど解明されていないままです。

過去数年間で規模が拡大 大規模な言語モデル 事前にトレーニングされたものは、 自然言語処理 最近の研究では、データとモデルのスケーリングを使用して言語から 2D への変換が進んでいることが示されており、開発者がこの成功を試みて再試行して、スケーリングして現実世界のアプリケーションに転送できる 3D 表現を学習する道が開かれています。 

Uni3D は、大規模な 3D 表現を学習することを目的として開発された、スケーラブルで統合された事前トレーニング 3D フレームワークであり、10 億を超えるパラメータ、70 万を超えるテキストと組み合わせられた 3 万を超える画像、および 3 万を超える 3D 形状のスケールで限界をテストします。 。 以下の図は、Uni3D フレームワークのパラメーターとゼロショット精度を比較しています。 Uni6D フレームワークは、XNUMXD 表現を XNUMX 万から XNUMX 億以上にスケールアップすることに成功しました。 

Uni3D フレームワークは 2D ViT または ビジョントランスフォーマー 3D エンコーダとしてエンドツーエンドで事前トレーニングされ、画像とテキストの位置合わせされたフィーチャが 3D 点群のフィーチャと位置合わせされます。 Uni3D フレームワークは、プリテキスト タスクとシンプルなアーキテクチャを利用して、豊富な事前トレーニング済み 2D モデルと画像テキストが配置されたモデルをそれぞれ初期化とターゲットとして活用し、2D モデルの可能性を最大限に引き出し、モデルを 3D 世界にスケールする戦略を実現します。 Uni3D フレームワークの柔軟性とスケーラビリティは、次の観点から測定されます。

  1. モデルのスケーリング 6 万から XNUMX 億を超えるパラメータまで。 
  2. ビジュアルから監視されたテキストへの 2D 初期化 自己教師あり学習
  3. 150 億 XNUMX 万から XNUMX 億を超えるパラメータまで拡張するテキスト画像ターゲット モデル。 

Uni3D が提供する柔軟で統一されたフレームワークの下で、開発者は各コンポーネントのスケーリングに関して一貫したパフォーマンスの向上を観察しています。 大規模な 3D 表現の学習でも、共有可能な 2D およびスケールアップ戦略から大きなメリットが得られます。 

下の図からわかるように、Uni3D フレームワークは、少数ショット設定およびゼロショット設定で従来技術と比較してパフォーマンスの向上を示しています。 Uni3D フレームワークが ModelNet 上で 88% 以上のゼロショット分類精度スコアを返し、これはいくつかの最先端の監視手法のパフォーマンスと同等であることは注目に値します。 

さらに、Uni3D フレームワークは、パーツのセグメンテーションやオープンワールドの理解など、他の代表的な 3D タスクを実行する際にも最高の精度とパフォーマンスを提供します。 Uni3D フレームワークは、統合されたシンプルな事前トレーニング アプローチで 2D 基礎モデルをスケーリングすることで、3D ビジョンと 3D ビジョンの間のギャップを埋めることを目的としています。これにより、幅広いタスクにわたってより堅牢な 3D 表現を学習でき、最終的に 2D ビジョンの収束に役立つ可能性があります。幅広いモダリティにわたる 3D ビジョン。

Uni3D : 関連作品

Uni3D フレームワークはインスピレーションを引き出し、以前の 3D 表現学習によって行われた開発や、特にさまざまなモダリティの下での基礎モデルから学びます。 

3D表現学習

3D 表現の学習方法では、オブジェクトの 3D 理解にクラウド ポイントを使用します。この分野は、最近開発者によって多くの研究が行われており、これらのクラウド ポイントは、特定のツールを使用して自己監視の下で事前にトレーニングできることが観察されています。マスク ポイント モデリング、自己再構築、対照学習を含む 3D 口実タスク。 

これらの方法は限られたデータで機能し、多くの場合、3D または NLP から 2D へのマルチモーダル表現を調査しないことに注意してください。 しかし、CLIP フレームワークの最近の成功により、対照学習方法を使用して生のテキストから視覚概念を学習する際に高い効率が得られ、さらに同じ対照学習方法を使用して画像、テキスト、および曇点の特徴を位置合わせすることによって 3D 表現を学習しようとしています。 

基礎モデル

開発者は、マルチモーダル表現をスケールアップして統合するための基礎モデルの設計に徹底的に取り組んできました。 たとえば、NLP ドメインでは、開発者は事前トレーニングされた言語モデルをスケールアップできるフレームワークに取り組んでおり、NLP 業界にゆっくりと革命をもたらしています。 さらに、開発者は言語から 2D モデルへの進化を支援するデータとモデルのスケーリング技術を使用するフレームワークに取り組んでいるため、2D ビジョンの分野でも進歩が見られますが、そのようなフレームワークを 3D モデルで複製するのは困難です。 3D データの可用性が限られていること、および 3D フレームワークを統合してスケールアップするときに直面する課題。 

上記の XNUMX つの作業領域から学ぶことにより、開発者は Uni3D フレームワークは、統合された ViT または Vision Transformer アーキテクチャを利用する 3 億を超えるパラメータを持つ初の 3D 基盤モデルで、開発者はモデルをスケールアップするための統合 3D または NLP 戦略を使用して Uni3D モデルをスケールできます。 開発者は、この方法により、Uni2D フレームワークが現在 3D 視覚と XNUMXD 視覚を隔てているギャップを埋めるとともに、マルチモーダルな収束を促進できることを期待しています。

Uni3D : メソッドとアーキテクチャ

上の画像は、大規模な 3D 表現学習のためのスケーラブルで統合された事前トレーニング 3D フレームワークである Uni3D フレームワークの一般的な概要を示しています。 開発者は、70 万を超えるテキストと、10 万を超える 3D 形状と組み合わせた 3 万の画像を利用して、Uni3D フレームワークを 2 億を超えるパラメーターに拡張します。 Uni3D フレームワークは、3D ViT または Vision Transformer を 3D エンコーダとして使用し、エンドツーエンドでトレーニングされてテキスト画像データと 3D 雲点特徴を調整します。これにより、UniXNUMXD フレームワークは、システム全体にわたって望ましい効率と精度を提供できるようになります。幅広いベンチマーク。 次に、UniXNUMXD フレームワークの動作を詳しく見てみましょう。 

Uni3D フレームワークのスケーリング

雲点表現学習に関するこれまでの研究は、伝統的に、幅広いアプリケーションにわたってより優れたパフォーマンスを実現し、小規模なデータセットのおかげで限られた量のデータを扱う特定のモデル アーキテクチャの設計に重点を置いていました。 ただし、最近の研究では 3D でスケーラブルな事前トレーニングを使用する可能性を探ろうとしましたが、利用できる 3D データが限られていたため、大きな成果は得られませんでした。 3D フレームワークのスケーラビリティの問題を解決するために、Uni3D フレームワークは、ビジョン トランスフォーマーをほぼミラーリングするバニラ トランスフォーマー構造の力を活用し、統合 2D または NLP スケールアップ戦略を使用してモデル サイズをスケールすることでスケーリングの問題を解決できます。 

雲点表現学習に関するこれまでの研究は、伝統的に、幅広いアプリケーションにわたってより優れたパフォーマンスを実現し、小規模なデータセットのおかげで限られた量のデータを扱う特定のモデル アーキテクチャの設計に重点を置いていました。 ただし、最近の研究では 3D でスケーラブルな事前トレーニングを使用する可能性を探ろうとしましたが、利用できる 3D データが限られていたため、大きな成果は得られませんでした。 3D フレームワークのスケーラビリティの問題を解決するために、Uni3D フレームワークは、ビジョン トランスフォーマーをほぼミラーリングするバニラ トランスフォーマー構造の力を活用し、統合 2D または NLP スケールアップ戦略を使用してモデル サイズをスケールすることでスケーリングの問題を解決できます。 

Uni3D を初期化しています

以前の研究で遭遇したもう 3 つの大きな課題は、3D 表現のスケーリング、収束の困難、およびモデルのサイズが大きいために生じるオーバーフィッティングに関係していました。 このハードルを克服する効果的なアプローチは、指定された 3D プリテキスト タスクを使用して個々の 3D バックボーンを事前トレーニングし、事前トレーニングされたパラメーターを初期化することです。 ただし、このアプローチには高いトレーニング コストが伴い、トレーニング目的で利用できる XNUMXD データの量が限られているため、クロスモーダル学習のための堅牢な初期化を確立することも困難です。 

Uni3D フレームワークはバニラ トランスフォーマーを利用しており、その構造は ViT によく似ています。 このアプローチを使用すると、Uni3D フレームワークは、他のモダリティを備えた事前トレーニング済みの大規模モデルを自然に採用して、Uni3D フレームワークを初期化できます。 

マルチモーダルアライメント

Uni3D フレームワークは、OpenShape および ULIP フレームワークと同様のパラダイムを利用して、画像、言語、および点群にわたるマルチモデルの位置合わせを学習しようとします。 さらに、他の方法との公平な比較を保証するために、Uni3D フレームワークはトレーニング目的で OpenShape によるアンサンブル 3D データセットを使用します。 OpenShape によるこのアンサンブル データセットは、4 つの 3D データセットで構成されています。 

  1. 客観的。 
  2. シェイプネット。 
  3. 3D-未来。 
  4. アボ。 

実験と結果

Uni3D フレームワークは、さまざまな設定にわたってテストされ、ゼロショットおよび少数ショット設定でのパフォーマンス、オープンワールドの理解に関する結果など、さまざまな分類タスクにわたってテストされます。 これらの結果を詳しく見てみましょう。

ゼロショット形状の分類

ゼロショット形状分類タスクにわたる Uni3D フレームワークのパフォーマンスを評価するために、開発者は、ModelNet、ScanObjNN、Objaverse-LVIS ベンチマーク データセットを含む 15 つのベンチマークにわたって実験を実施しました。 ModelNet と ScanObjNN は分類タスクに広く使用されているデータセットで、それぞれ 40 と 40,000 のオブジェクト カテゴリで構成されています。一方、Objaverse-LVIS ベンチマークは、1,100 以上のカテゴリにわたる 3 以上のオブジェクトで構成される、クリーン化され注釈が付けられたデータセットです。 フレームワーク間の比較を以下の画像に示します。見てわかるように、UniXNUMXD フレームワークは、さまざまな設定において以前の最先端のフレームワークよりも大幅に優れています。 

少数ショットのリニアプロービング

AI では、線形プロービングは、フレームワークまたはモデルが学習する表現を評価するために使用される一般的な方法です。 Uni3D の線形プローブ機能を評価するために、開発者は OpenShape としての共通設定を使用して Uni3D フレームワークのパラメータをフリーズしました。 これに続いて、開発者は、少数ショットのクラス ラベルを使用して Uni3D の線形分類器をトレーニングします。 以下の図は、Objaverse-LVIS データセット上のさまざまなフレームワークの線形プローブ能力を示し、10 個のランダム シードにわたるモデルの平均パフォーマンスを示しています。 見てわかるように、Uni3D フレームワークは、さまざまな数ショット設定の下で既存の方法よりも大幅に優れたパフォーマンスを発揮します。 

オープンワールドの理解

現実世界の形状やオブジェクトをリアルタイムで理解する Uni3D フレームワークの機能を評価するために、開発者は ScanNet および CLIP データセットを使用して Uni3D のパフォーマンスを調査します。 グラウンド トゥルースのインスタント セグメンテーションが利用可能であることは注目に値します。主な目的は、ゼロショット設定ですべてのシーンの個々のインスタントのカテゴリを認識することです。 結果を以下の画像に示します。 ご覧のとおり、Uni3D フレームワークは、現実世界の理解と認識を実行する際に優れた結果をもたらします。 Uni3D フレームワークは、現実世界のデータセットでトレーニングを行っていないにもかかわらず、既存のフレームワークを大幅に上回っています。 

クロスモーダル検索

Uni3D フレームワークによって学習されたマルチモーダル表現により、フレームワークはテキストまたは画像から 3D 形状を自然に取得できます。 3D 形状を取得するために、モデルは 3D 形状の埋め込みとクエリ テキスト プロンプトまたはクエリ画像の埋め込みの間のコサイン類似度を計算します。 次に、フレームワークは KNN または K 最近傍アルゴリズムを利用して、クエリに最もよく似た 3D 形状を生成します。結果は次の図に示されています。 ご覧のとおり、Uni3D フレームワークは現実世界の画像を使用して 3D 形状を取得することに成功しています。 さらに、トレーニング画像はレンダリングのみを目的としており、現実世界とトレーニング画像の間には大きなギャップがあることに注意してください。 さらに、モデルは 3 つの入力画像も取得し、両方の画像の埋め込み平均とその埋め込まれた 3D 形状の間のコサイン類似度を使用して、両方の入力画像に類似した形状を取得します。 この結果は、多様な 3D 表現を学習し、複数の 2D 信号を認識する UniXNUMXD の能力を実証するものとして興味深いものです。 

最初の列では、フレームワークは 2 つのクエリ画像を使用して、クエリ画像に最も類似した 3D 形状を返します。 3 番目の列では、フレームワークは 3 つの入力イメージを使用して、両方の入力イメージに似た XNUMXD 形状を取得します。 最後に、最後の列では、モデルはクエリ テキストを使用し、テキスト クエリに最大限似た XNUMXD 形状を返します。 

最終的な考え

この記事では、Uni3D について説明しました。Uni3D は、大規模な 3D 表現を学習することを目的として開発された、スケーラブルで統合された事前トレーニング 10D フレームワークであり、70 億を超えるパラメーター、3 万を超える画像とペアになった 3 万を超えるスケールで限界をテストします。テキストと 2 万を超える 3D シェイプ。 フレームワークの開発者は、統合 2D または NLP スケーリング戦略を使用して Uni2D フレームワークをスケールアップできるようにする、ViT と同等の構造を持つバニラ トランスフォーマーを組み込みました。 さらに、Uni3D フレームワークは、事前にトレーニングされたさまざまな 3D フレームワークと 3D 戦略を XNUMXD 世界に活用できます。 UniXNUMXD フレームワークは幅広い設定にわたって正確かつ効率的な結果を返し、既存の最先端のフレームワークを上回るパフォーマンスを示すため、実験結果はすでに UniXNUMXD フレームワークの大きな可能性を実証しています。 

「職業はエンジニア、心は作家」。 Kunal は、AI と ML に対する深い愛情と理解を備えたテクニカル ライターであり、魅力的で有益なドキュメントを通じてこれらの分野の複雑な概念を簡素化することに専念しています。