toco Uni3D: Explorando a representação 3D unificada em escala - Unite.AI
Entre em contato

Inteligência artificial

Uni3D: explorando a representação 3D unificada em escala

mm
Atualização do on

Ampliar representações de texto e imagens tem sido um foco importante de pesquisa nos últimos anos. Desenvolvimentos e pesquisas realizadas no passado recente levaram a inúmeras revoluções na aprendizagem e na visão de línguas. No entanto, apesar da popularidade do dimensionamento de representações visuais e de texto, o dimensionamento de representações para cenas e objetos 3D não foi suficientemente discutido.

Hoje discutiremos o Uni3D, um modelo básico 3D que visa explorar representações 3D unificadas. A estrutura Uni3D emprega uma estrutura ViT inicializada em 2D, pré-treinada de ponta a ponta, para alinhar recursos de imagem-texto com seus recursos de nuvem de pontos 3D correspondentes.

A estrutura Uni3D usa tarefas de pretexto e uma arquitetura simples para aproveitar a abundância de modelos 2D pré-treinados e modelos alinhados com imagem e texto como inicializações e alvos, respectivamente. Esta abordagem libera todo o potencial dos modelos 2D e estratégias para escalá-los para o mundo 3D.

Neste artigo, vamos nos aprofundar no 3D visão computacional e o framework Uni3D, explorando os conceitos essenciais e a arquitetura do modelo. Então, vamos começar.

Aprendizagem de representação Uni3D e 3D: uma introdução

Nos últimos anos, a visão computacional emergiu como um dos domínios com maior investimento na indústria de IA. Após avanços significativos nas estruturas de visão computacional 2D, os desenvolvedores mudaram seu foco para a visão computacional 3D. Este campo, particularmente o aprendizado de representação 3D, mescla aspectos de computação gráfica, aprendizado de máquina, visão computacional e matemática para automatizar o processamento e a compreensão da geometria 3D. O rápido desenvolvimento de sensores 3D como LiDAR, juntamente com suas aplicações generalizadas na indústria de AR/VR, resultou no aprendizado de representação 3D ganhando cada vez mais atenção. Suas aplicações potenciais continuam a crescer diariamente.

Embora as estruturas existentes tenham mostrado um progresso notável na arquitetura de modelos 3D, na modelagem orientada a tarefas e nos objetivos de aprendizagem, a maioria explora a arquitetura 3D em uma escala relativamente pequena, com dados, parâmetros e cenários de tarefas limitados. O desafio de aprender representações 3D escaláveis, que podem então ser aplicadas a aplicações em tempo real em diversos ambientes, permanece em grande parte inexplorado.

Seguindo em frente, nos últimos anos, a expansão grandes modelos de linguagem que são pré-treinados ajudou a revolucionar o processamento de linguagem natural domínio, e trabalhos recentes indicaram uma tradução no progresso para 2D da linguagem usando dados e dimensionamento de modelo, o que abre caminho para os desenvolvedores tentarem e tentarem novamente esse sucesso para aprender uma representação 3D que pode ser dimensionada e transferida para aplicativos no mundo real. 

Uni3D é uma estrutura 3D de pré-treinamento escalável e unificada desenvolvida com o objetivo de aprender representações 3D em grande escala que testa seus limites na escala de mais de um bilhão de parâmetros, mais de 10 milhões de imagens emparelhadas com mais de 70 milhões de textos e mais de um milhão de formas 3D . A figura abaixo compara a precisão do disparo zero com os parâmetros da estrutura Uni3D. A estrutura Uni3D dimensiona com sucesso representações 3D de 6 milhões para mais de um bilhão. 

A estrutura Uni3D consiste em um ViT 2D ou Transformador de Visão como o codificador 3D que é pré-treinado de ponta a ponta para alinhar os recursos alinhados de imagem-texto com os recursos de nuvem de pontos 3D. A estrutura Uni3D faz uso de tarefas de pretexto e arquitetura simples para aproveitar a abundância de modelos 2D pré-treinados e modelos alinhados de imagem e texto como inicialização e alvos, respectivamente, liberando assim todo o potencial dos modelos 2D e estratégias para escalá-los para o mundo 3D. A flexibilidade e escalabilidade da estrutura Uni3D são medidas em termos de

  1. Dimensionando o modelo de 6M a mais de um bilhão de parâmetros. 
  2. Inicialização 2D para texto supervisionado pelo visual aprendizagem auto-supervisionada
  3. Modelo de destino de imagem de texto com escala de 150 milhões a mais de um bilhão de parâmetros. 

Sob a estrutura flexível e unificada oferecida pelo Uni3D, os desenvolvedores observam um aumento coerente no desempenho quando se trata de dimensionar cada componente. O aprendizado da representação 3D em grande escala também se beneficia imensamente das estratégias 2D compartilháveis ​​e de expansão. 

Como pode ser visto na figura abaixo, a estrutura Uni3D apresenta um aumento no desempenho quando comparado à técnica anterior em configurações de poucos e zero disparos. É importante notar que a estrutura Uni3D retorna uma pontuação de precisão de classificação zero shot de mais de 88% no ModelNet, o que está no mesmo nível do desempenho de vários métodos de supervisão de última geração. 

Além disso, a estrutura Uni3D também oferece precisão e desempenho de alto nível ao executar outras tarefas 3D representativas, como segmentação de peças e compreensão do mundo aberto. A estrutura Uni3D visa preencher a lacuna entre a visão 2D e a visão 3D, dimensionando modelos 3D fundamentais com uma abordagem de pré-treinamento unificada, porém simples, para aprender representações 3D mais robustas em uma ampla gama de tarefas, o que pode, em última análise, ajudar na convergência de 2D. e visão 3D em uma ampla variedade de modalidades.

Uni3D: Trabalho Relacionado

A estrutura Uni3D se inspira e aprende com os desenvolvimentos feitos pelo aprendizado anterior de representação 3D e modelos fundamentais, especialmente em diferentes modalidades. 

Aprendizagem de representação 3D

O método de aprendizagem de representação 3D utiliza pontos de nuvem para compreensão 3D do objeto, e este campo tem sido muito explorado por desenvolvedores no passado recente, e foi observado que esses pontos de nuvem podem ser pré-treinados sob auto-supervisão usando específicos Tarefas de pretexto 3D, incluindo modelagem de pontos de máscara, auto-reconstrução e aprendizagem contrastiva. 

É importante notar que esses métodos funcionam com dados limitados e muitas vezes não investigam representações multimodais para 3D a partir de 2D ou PNL. No entanto, o sucesso recente da estrutura CLIP que retorna alta eficiência no aprendizado de conceitos visuais a partir de texto bruto usando o método de aprendizagem contrastivo, e busca ainda aprender representações 3D alinhando recursos de imagem, texto e pontos de nuvem usando o mesmo método de aprendizagem contrastivo. 

Modelos de Fundação

Os desenvolvedores têm trabalhado exaustivamente no projeto de modelos básicos para ampliar e unificar representações multimodais. Por exemplo, no domínio da PNL, os desenvolvedores têm trabalhado em estruturas que podem ampliar modelos de linguagem pré-treinados, e isso está revolucionando lentamente a indústria da PNL. Além disso, os avanços também podem ser observados no domínio da visão 2D porque os desenvolvedores estão trabalhando em estruturas que usam técnicas de escalonamento de dados e modelos para ajudar no progresso da linguagem para modelos 2D, embora tais estruturas sejam difíceis de replicar para modelos 3D devido ao disponibilidade limitada de dados 3D e os desafios encontrados ao unificar e ampliar as estruturas 3D. 

Ao aprender com os dois domínios de trabalho acima, os desenvolvedores criaram a estrutura Uni3D, o primeiro modelo básico 3D com mais de um bilhão de parâmetros que faz uso de uma arquitetura unificada ViT ou Vision Transformer que permite aos desenvolvedores dimensionar o modelo Uni3D usando estratégias unificadas 3D ou PNL para ampliar os modelos. Os desenvolvedores esperam que este método permita que a estrutura Uni3D preencha a lacuna que atualmente separa a visão 2D e 3D, além de facilitar a convergência multimodal.

Uni3D: Método e Arquitetura

A imagem acima demonstra a visão geral genérica da estrutura Uni3D, uma estrutura 3D de pré-treinamento escalável e unificada para aprendizado de representação 3D em grande escala. Os desenvolvedores utilizam mais de 70 milhões de textos e 10 milhões de imagens combinadas com mais de um milhão de formas 3D para dimensionar a estrutura Uni3D para mais de um bilhão de parâmetros. A estrutura Uni3D usa um ViT 2D ou Vision Transformer como um codificador 3D que é então treinado de ponta a ponta para alinhar os dados de imagem de texto com os recursos de ponto de nuvem 3D, permitindo que a estrutura Uni3D forneça a eficiência e precisão desejadas em um ampla gama de benchmarks. Vamos agora dar uma olhada detalhada no funcionamento da estrutura Uni3D. 

Dimensionando a estrutura Uni3D

Estudos anteriores sobre aprendizagem de representação de pontos de nuvem tradicionalmente se concentraram fortemente no projeto de arquiteturas de modelos específicos que oferecem melhor desempenho em uma ampla gama de aplicações e trabalham em uma quantidade limitada de dados graças a conjuntos de dados de pequena escala. No entanto, estudos recentes tentaram explorar a possibilidade de usar pré-treinamento escalonável em 3D, mas não houve resultados importantes graças à disponibilidade de dados 3D limitados. Para resolver o problema de escalabilidade das estruturas 3D, a estrutura Uni3D aproveita o poder de uma estrutura de transformador vanilla que quase espelha um Vision Transformer e pode resolver os problemas de escala usando estratégias unificadas de escalabilidade 2D ou PNL para dimensionar o tamanho do modelo. 

Estudos anteriores sobre aprendizagem de representação de pontos de nuvem tradicionalmente se concentraram fortemente no projeto de arquiteturas de modelos específicos que oferecem melhor desempenho em uma ampla gama de aplicações e trabalham em uma quantidade limitada de dados graças a conjuntos de dados de pequena escala. No entanto, estudos recentes tentaram explorar a possibilidade de usar pré-treinamento escalonável em 3D, mas não houve resultados importantes graças à disponibilidade de dados 3D limitados. Para resolver o problema de escalabilidade das estruturas 3D, a estrutura Uni3D aproveita o poder de uma estrutura de transformador vanilla que quase espelha um Vision Transformer e pode resolver os problemas de escala usando estratégias unificadas de escalabilidade 2D ou PNL para dimensionar o tamanho do modelo. 

Inicializando Uni3D

Outro grande desafio encontrado por trabalhos anteriores envolveu o dimensionamento de representações 3D, as dificuldades de convergência e overfitting resultantes do grande tamanho dos modelos. Uma abordagem eficaz para superar esse obstáculo é pré-treinar backbones 3D individuais com tarefas de pretexto 3D especificadas e inicializar parâmetros pré-treinados. No entanto, a abordagem é acompanhada de elevados custos de formação, e também é difícil estabelecer uma inicialização robusta para a aprendizagem intermodal, graças à quantidade limitada de dados 3D disponíveis para fins de formação. 

A estrutura Uni3D utiliza um transformador vanilla, cuja estrutura se assemelha muito ao ViT. Com esta abordagem, a estrutura Uni3D pode naturalmente adotar grandes modelos pré-treinados com outras modalidades para inicializar a estrutura Uni3D. 

Alinhamento Multimodal

A estrutura Uni3D tenta aprender alinhamentos de vários modelos em imagens, linguagens e nuvens de pontos, fazendo uso de paradigmas semelhantes às estruturas OpenShape e ULIP. Além disso, para garantir uma comparação justa com outros métodos, a estrutura Uni3D utiliza o conjunto de dados 3D conjunto do OpenShape para fins de treinamento. Este conjunto de dados conjunto da OpenShape consiste em 4 conjuntos de dados 3D: 

  1. Objaverso. 
  2. ShapeNet. 
  3. 3D-FUTURO. 
  4. ABO. 

Experimentos e resultados

A estrutura Uni3D é testada em diferentes configurações e em várias tarefas de classificação, incluindo seu desempenho em configurações de disparo zero e de poucos disparos, resultados em torno da compreensão do mundo aberto e muito mais. Vamos dar uma olhada detalhada nesses resultados.

Classificação de formato de tiro zero

Para avaliar o desempenho da estrutura Uni3D em tarefas de classificação de formas zero-shot, os desenvolvedores conduzem experimentos em três benchmarks, incluindo conjuntos de dados de benchmark ModelNet, ScanObjNN e Objaverse-LVIS. ModelNet e ScanObjNN são conjuntos de dados amplamente usados ​​para tarefas de classificação e consistem em 15 e 40 categorias de objetos, respectivamente, enquanto o benchmark Objaverse-LVIS é um conjunto de dados limpo e anotado que consiste em mais de 40,000 objetos em mais de 1,100 categorias. A comparação entre os frameworks é demonstrada na imagem abaixo e, como pode ser visto, o framework Uni3D supera significativamente os frameworks de última geração anteriores em diferentes configurações. 

Sondagem Linear de Poucos Disparos

Em IA, a Sondagem Linear é um método comum usado para avaliar as representações que uma estrutura ou modelo aprende. Para avaliar a capacidade de sondagem linear do Uni3D, os desenvolvedores congelam os parâmetros da estrutura Uni3D usando configurações comuns como OpenShape. Em seguida, os desenvolvedores treinam um classificador linear para Uni3D usando rótulos de classe de poucos disparos. A figura abaixo demonstra a capacidade de sondagem linear de diferentes estruturas no conjunto de dados Objaverse-LVIS e demonstra o desempenho médio do modelo em 10 sementes aleatórias. Como pode ser visto, a estrutura Uni3D supera significativamente os métodos existentes em diferentes configurações de poucos disparos. 

Compreensão do mundo aberto

Para avaliar a capacidade da estrutura Uni3D de compreender formas e objetos do mundo real em tempo real, os desenvolvedores usam conjuntos de dados ScanNet e CLIP para explorar o desempenho do Uni3D. Vale a pena notar que a segmentação instantânea da verdade está disponível, e o motivo principal é reconhecer a categoria do instante individual de cada cena em uma configuração de tiro zero. Os resultados são demonstrados na imagem abaixo. Como pode ser visto, a estrutura Uni3D oferece resultados excepcionais ao realizar compreensão e reconhecimento do mundo real. A estrutura Uni3D supera as estruturas existentes por uma margem significativa, apesar de nunca treinar em conjuntos de dados do mundo real. 

Recuperação Cross-Modal

As representações multimodais aprendidas pela estrutura Uni3D podem permitir que a estrutura recupere formas 3D naturalmente a partir de textos ou imagens. Para recuperar as formas 3D, o modelo calcula a semelhança de cosseno entre as incorporações de formas 3D e as incorporações de um prompt de texto de consulta ou de uma imagem de consulta. A estrutura então faz uso do algoritmo KNN ou K Nearest Neighbour para gerar formas 3D que mais se assemelham à consulta, e os resultados são demonstrados na figura abaixo. Como pode ser visto, a estrutura Uni3D utiliza com sucesso imagens do mundo real para recuperar formas 3D. Além disso, vale a pena notar que as imagens de treinamento são apenas para fins de renderização, e a lacuna entre as imagens do mundo real e as de treinamento é substancial. Além disso, o modelo também pega duas imagens de entrada e recupera formas semelhantes a ambas as imagens de entrada usando a similaridade de cosseno entre as médias de incorporação de ambas as imagens e suas formas 3D incorporadas. Os resultados são interessantes porque demonstram a capacidade do Uni3D de aprender diversas representações 3D e perceber múltiplos sinais 2D. 

Na primeira coluna, a estrutura usa 2 imagens de consulta para retornar formas 3D mais semelhantes às imagens de consulta. Na segunda coluna, a estrutura usa duas imagens de entrada para recuperar formas 3D que se assemelham às duas imagens de entrada. Por fim, na coluna final, o modelo utiliza textos de consulta e retorna formas 3D que se assemelham ao máximo ao texto de consulta. 

Considerações Finais

Neste artigo, falamos sobre Uni3D, uma estrutura 3D de pré-treinamento unificada e escalável desenvolvida com o objetivo de aprender representações 3D em grande escala que testa seus limites na escala de mais de um bilhão de parâmetros, mais de 10 milhões de imagens emparelhadas com mais de 70 milhões textos e mais de um milhão de formas 3D. Os desenvolvedores da estrutura incluíram um transformador vanilla com sua estrutura equivalente a ViTs que lhes permite escalar a estrutura Uni3D usando estratégias de escalonamento 2D ou PNL unificadas. Além disso, a estrutura Uni3D pode aproveitar uma ampla gama de estruturas 2D pré-treinadas e estratégias 2D para o mundo 3D. Os resultados experimentais já demonstraram o enorme potencial da estrutura Uni3D, uma vez que a estrutura Uni3D retorna resultados precisos e eficientes em uma ampla gama de configurações e supera as estruturas de última geração existentes. 

"Engenheiro de profissão, escritor de coração". Kunal é um escritor técnico com profundo amor e compreensão de IA e ML, dedicado a simplificar conceitos complexos nesses campos por meio de sua documentação envolvente e informativa.