存根 Uni3D:探索大规模统一 3D 表示 - Unite.AI
关注我们.

人工智能

Uni3D:探索大规模统一 3D 表示

mm
更新 on

扩大文本和视觉效果的表示一直是近年来研究的主要焦点。 最近进行的发展和研究导致了语言学习和视觉方面的无数革命。 然而,尽管缩放文本和视觉表示很流行,但 3D 场景和对象的表示缩放尚未得到充分讨论。

今天,我们将讨论 Uni3D,一个旨在探索统一 3D 表示的 3D 基础模型。 Uni3D 框架采用 2D 初始化的 ViT 框架,经过端到端预训练,将图像文本特征与其相应的 3D 点云特征对齐。

Uni3D 框架使用借口任务和简单的架构来利用大量预训练的 2D 模型和图像文本对齐模型分别作为初始化和目标。 这种方法充分发挥了 2D 模型和策略的潜力,将其扩展到 3D 世界。

在本文中,我们将深入研究 3D 计算机视觉 和 Uni3D 框架,探索模型的基本概念和架构。 那么,让我们开始吧。

Uni3D 和 3D 表示学习:简介

在过去几年中,计算机视觉已成为人工智能行业投资最多的领域之一。 随着 2D 计算机视觉框架的重大进步,开发人员已将重点转向 3D 计算机视觉。 这个领域,特别是 3D 表示学习,融合了计算机图形学的各个方面, 机器学习、计算机视觉和数学来自动处理和理解 3D 几何。 LiDAR等3D传感器的快速发展及其在AR/VR行业的广泛应用使得3D表示学习受到越来越多的关注。 其潜在应用每天都在持续增长。

尽管现有框架在 3D 模型架构、面向任务的建模和学习目标方面取得了显着进展,但大多数框架都在相对较小的范围内探索 3D 架构,且数据、参数和任务场景有限。 学习可扩展的 3D 表示(然后将其应用于不同环境中的实时应用程序)的挑战在很大程度上仍未得到探索。

在过去的几年里,规模不断扩大 大型语言模型 经过预先训练的人员有助于彻底改变 自然语言处理 最近的工作表明,使用数据和模型缩放的语言正在向 2D 转变,这为开发人员尝试和重新尝试学习可缩放并转移到现实世界中的应用程序的 3D 表示方式的成功铺平了道路。 

Uni3D 是一个可扩展且统一的预训练 3D 框架,旨在学习大规模 3D 表示,在超过 10 亿个参数、超过 70 万张图像与超过 3 万个文本配对以及超过 3 万个 3D 形状的规模上测试其极限。 下图将零样本精度与 Uni3D 框架中的参数进行了比较。 Uni6D 框架成功地将 XNUMXD 表示从 XNUMX 万扩展到超过 XNUMX 亿。 

Uni3D 框架由 2D ViT 或 视觉变压器 作为 3D 编码器,然后进行端到端预训练,以将图像文本对齐特征与 3D 点云特征对齐。 Uni3D 框架利用借口任务和简单的架构,分别利用大量预训练的 2D 模型和图像文本对齐模型作为初始化和目标,从而释放 2D 模型的全部潜力以及将其扩展到 3D 世界的策略。 Uni3D 框架的灵活性和可扩展性通过以下方面来衡量

  1. 缩放模型 从 6M 到超过 XNUMX 亿个参数。 
  2. 从视觉监督下对文本进行 2D 初始化 自我监督学习
  3. 文本图像目标模型从 150 亿个参数扩展到超过 XNUMX 亿个参数。 

在 Uni3D 提供的灵活且统一的框架下,开发人员在扩展每个组件时观察到性能的连贯提升。 大规模 3D 表示学习也从可共享的 2D 和放大策略中受益匪浅。 

如下图所示,与现有技术相比,在少样本和零样本设置下,Uni3D 框架显示出性能的提升。 值得注意的是,Uni3D 框架在 ModelNet 上返回了超过 88% 的零样本分类准确度分数,这与几种最先进的监督方法的性能相当。 

此外,Uni3D 框架在执行其他代表性 3D 任务(例如零件分割和开放世界理解)时还提供一流的准确性和性能。 Uni3D 框架旨在通过使用统一而简单的预训练方法扩展 2D 基础模型来弥合 3D 视觉和 3D 视觉之间的差距,以在各种任务中学习更强大的 3D 表示,这最终可能有助于 2D 的融合以及跨多种模式的 3D 视觉。

Uni3D:相关工作

Uni3D 框架汲取了灵感,并从以前的 3D 表示学习和基础模型(特别是在不同模式下)的发展中汲取了灵感。 

3D 表示学习

3D表示学习方法使用云点来实现对物体的3D理解,最近开发人员对这个领域进行了大量探索,并且观察到这些云点可以在自监督下使用特定的模型进行预训练。 3D 借口任务包括掩模点建模、自我重建和对比学习。 

值得注意的是,这些方法适用的数据有限,并且它们通常不研究从 3D 或 NLP 到 2D 的多模态表示。 然而,CLIP 框架最近的成功,使用对比学习方法从原始文本中学习视觉概念,并进一步寻求通过使用相同的对比学习方法对齐图像、文本和浊点特征来学习 3D 表示。 

基础模型

开发人员一直致力于设计基础模型,以扩大和统一多模态表示。 例如,在 NLP 领域,开发人员一直致力于开发可以扩展预训练语言模型的框架,它正在慢慢地彻底改变 NLP 行业。 此外,在 2D 视觉领域也可以看到进步,因为开发人员正在开发使用数据和模型缩放技术的框架,以帮助语言向 2D 模型的进展,尽管此类框架很难在 3D 模型中复制,因为3D 数据的可用性有限,以及统一和扩展 3D 框架时遇到的挑战。 

通过借鉴上述两个工作领域,开发人员创建了 Uni3D 框架是第一个拥有超过 3 亿个参数的 3D 基础模型,它利用统一的 ViT 或 Vision Transformer 架构,允许开发人员使用统一的 3D 或 NLP 策略来扩展 Uni3D 模型,以扩展模型。 开发人员希望这种方法能够让 Uni2D 框架弥合目前 3D 和 XNUMXD 视觉之间的差距,并促进多模态融合

Uni3D:方法和架构

上图展示了 Uni3D 框架的一般概述,这是一个用于大规模 3D 表示学习的可扩展且统一的预训练 3D 框架。 开发人员利用超过 70 万个文本、10 万个图像以及超过 3 万个 3D 形状,将 Uni3D 框架扩展到超过 2 亿个参数。 Uni3D 框架使用 3D ViT 或 Vision Transformer 作为 3D 编码器,然后对其进行端到端训练,以将文本图像数据与 3D 浊点特征对齐,从而使 UniXNUMXD 框架能够在整个过程中提供所需的效率和准确性。广泛的基准。 现在让我们详细了解 UniXNUMXD 框架的工作原理。 

扩展 Uni3D 框架

先前对浊点表示学习的研究传统上主要集中于设计特定的模型架构,这些架构可以在各种应用程序中提供更好的性能,并且由于小规模数据集而只能处理有限的数据量。 然而,最近的研究尝试探索在 3D 中使用可扩展预训练的可能性,但由于 3D 数据的可用性有限,没有取得重大成果。 为了解决 3D 框架的可扩展性问题,Uni3D 框架利用了几乎镜像 Vision Transformer 的普通 Transformer 结构的强大功能,并且可以通过使用统一的 2D 或 NLP 扩展策略来缩放模型大小来解决缩放问题。 

先前对浊点表示学习的研究传统上主要集中于设计特定的模型架构,这些架构可以在各种应用程序中提供更好的性能,并且由于小规模数据集而只能处理有限的数据量。 然而,最近的研究尝试探索在 3D 中使用可扩展预训练的可能性,但由于 3D 数据的可用性有限,没有取得重大成果。 为了解决 3D 框架的可扩展性问题,Uni3D 框架利用了几乎镜像 Vision Transformer 的普通 Transformer 结构的强大功能,并且可以通过使用统一的 2D 或 NLP 扩展策略来缩放模型大小来解决缩放问题。 

初始化 Uni3D

先前工作遇到的另一个主要挑战涉及 3D 表示的缩放、收敛困难以及由于模型尺寸过大而导致的过度拟合。 克服这一障碍的有效方法是使用指定的 3D 借口任务预训练各个 3D 主干,并初始化预训练参数。 然而,该方法的训练成本较高,而且由于可用于训练目的的 3D 数据量有限,很难为跨模态学习建立鲁棒的初始化。 

Uni3D 框架利用了普通变压器,其结构与 ViT 非常相似。 通过这种方法,Uni3D框架自然可以采用预先训练的大型模型和其他模态来初始化Uni3D框架。 

多模式对齐

Uni3D 框架尝试通过使用类似于 OpenShape 和 ULIP 框架的范例来学习跨图像、语言和点云的多模型对齐。 此外,为了确保与其他方法进行公平比较,Uni3D 框架使用 OpenShape 的集成 3D 数据集进行训练。 OpenShape 的这个集成数据集包含 4 个 3D 数据集: 

  1. 客观世界。 
  2. 形状网。 
  3. 3D-未来。 
  4. ABO。 

实验和结果

Uni3D 框架在不同的设置和各种分类任务中进行了测试,包括零样本和少样本设置中的性能、围绕开放世界理解的结果等等。 让我们详细看看这些结果。

零弹丸形状分类

为了评估 Uni3D 框架在零样本形状分类任务中的性能,开发人员在三个基准测试中进行了实验,包括 ModelNet、ScanObjNN 和 Objaverse-LVIS 基准数据集。 ModelNet 和 ScanObjNN 是广泛用于分类任务的数据集,它们分别包含 15 个和 40 个对象类别,而 Objaverse-LVIS 基准测试是一个经过清理和注释的数据集,包含 40,000 多个类别的 1,100 多个对象。 下图展示了框架之间的比较,可以看出,Uni3D 框架在不同设置下显着优于以前最先进的框架。 

少样本线性探测

在人工智能中,线性探测是一种用于评估框架或模型学习的表示的常用方法。 为了评估 Uni3D 的线性探测能力,开发人员使用 OpenShape 的通用设置冻结 Uni3D 框架的参数。 随后,开发人员使用少样本类标签训练 Uni3D 线性分类器。 下图展示了不同框架在 Objaverse-LVIS 数据集上的线性探测能力,并展示了模型在 10 个随机种子上的平均性能。 可以看出,Uni3D 框架在不同的少样本设置下显着优于现有方法。 

开放世界的理解

为了评估 Uni3D 框架实时理解真实世界形状和对象的能力,开发人员使用 ScanNet 和 CLIP 数据集来探索 Uni3D 的性能。 值得注意的是,地面实况即时分割是可用的,其主要动机是在零镜头设置中识别每个场景的单独瞬间的类别。 结果如下图所示。 可以看出,Uni3D 框架在执行现实世界的理解和识别时提供了出色的结果。 尽管从未在真实数据集上进行过训练,但 Uni3D 框架的性能仍显着优于现有框架。 

跨模态检索

Uni3D 框架学习的多模态表示可以让框架从文本或图像中自然地检索 3D 形状。 为了检索 3D 形状,模型计算 3D 形状的嵌入与查询文本提示或查询图像的嵌入之间的余弦相似度。 然后,该框架利用 KNN 或 K 最近邻算法生成与查询最相似的 3D 形状,结果如下图所示。 可以看出,Uni3D 框架成功地使用现实世界图像来检索 3D 形状。 此外,值得注意的是,训练图像仅用于渲染目的,现实世界和训练图像之间的差距很大。 此外,该模型还获取两个输入图像,并通过使用两个图像的嵌入平均值及其嵌入的 3D 形状之间的余弦相似度来检索与两个输入图像相似的形状。 结果很有趣,因为它们证明了 Uni3D 学习不同 3D 表示和感知多个 2D 信号的能力。 

在第一列中,框架使用 2 个查询图像返回与查询图像最相似的 3D 形状。 在第二列中,框架使用两个输入图像来检索与这两个输入图像相似的 3D 形状。 最后,在最后一列中,模型使用查询文本,并返回与文本查询最大相似的 3D 形状。 

最后的思考

在本文中,我们讨论了 Uni3D,这是一个可扩展且统一的预训练 3D 框架,旨在学习大规模 3D 表示,在超过 10 亿个参数、超过 70 万张图像与超过 3 万张图像配对的规模上测试其极限文本和超过一百万个 3D 形状。 该框架的开发人员添加了一个结构相当于 ViT 的普通转换器,使他们能够使用统一的 2D 或 NLP 缩放策略来扩展 Uni3D 框架。 此外,Uni2D 框架可以利用各种预先训练的 2D 框架和 3D 世界的 3D 策略。 实验结果已经证明了 Uni3D 框架的巨大潜力,因为 UniXNUMXD 框架可以在各种设置中返回准确高效的结果,并且性能优于现有的最先进的框架。 

“职业工程师,心灵作家”。 Kunal 是一位技术作家,对人工智能和机器学习有着深厚的热爱和理解,致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。