saplama Uni3D: Birleşik 3D Temsili Geniş Ölçekte Keşfetmek - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

Uni3D: Birleşik 3D Temsili Geniş Ölçekte Keşfetmek

mm
Güncellenmiş on

Metin ve görsellerin temsillerinin ölçeğinin büyütülmesi son yıllarda araştırmaların ana odak noktası olmuştur. Yakın geçmişte yapılan gelişmeler ve araştırmalar, dil öğrenimi ve vizyonunda çok sayıda devrime yol açmıştır. Ancak metin ve görsel temsillerin ölçeklendirilmesinin popülaritesine rağmen, 3 boyutlu sahneler ve nesneler için temsillerin ölçeklendirilmesi yeterince tartışılmamıştır.

Bugün, birleşik 3B temsilleri keşfetmeyi amaçlayan bir 3B temel modeli olan Uni3D'yi tartışacağız. Uni3D çerçevesi, görüntü metni özelliklerini karşılık gelen 2D nokta bulutu özellikleriyle hizalamak için uçtan uca önceden eğitilmiş, 3D olarak başlatılan bir ViT çerçevesi kullanır.

Uni3D çerçevesi, sırasıyla başlatma ve hedefler olarak önceden eğitilmiş 2D modellerin ve görüntü-metin hizalamalı modellerin çokluğundan yararlanmak için bahane görevlerini ve basit bir mimariyi kullanır. Bu yaklaşım, 2B modellerin ve bunları 3B dünyaya ölçeklendirme stratejilerinin tüm potansiyelini ortaya çıkarır.

Bu yazıda 3D konusunu daha derinlemesine inceleyeceğiz Bilgisayar görüşü ve modelin temel kavramlarını ve mimarisini keşfeden Uni3D çerçevesi. Öyleyse başlayalım.

Uni3D ve 3D Temsil Öğrenimi: Giriş

Geçtiğimiz birkaç yılda bilgisayarlı görme, yapay zeka endüstrisinde en çok yatırım yapılan alanlardan biri olarak ortaya çıktı. 2B bilgisayarlı görü çerçevelerindeki önemli ilerlemelerin ardından geliştiriciler odaklarını 3B bilgisayarlı görüye kaydırdılar. Bu alan, özellikle de 3 boyutlu gösterimin öğrenilmesi, bilgisayar grafiğinin çeşitli yönlerini birleştirir. makine öğrenme3 boyutlu geometrinin işlenmesini ve anlaşılmasını otomatikleştirmek için bilgisayarlı görme ve matematik. LiDAR gibi 3 boyutlu sensörlerin hızlı gelişimi ve bunların AR/VR endüstrisindeki yaygın uygulamaları, 3 boyutlu temsil öğreniminin daha fazla ilgi çekmesiyle sonuçlandı. Potansiyel uygulamaları her geçen gün büyümeye devam ediyor.

Mevcut çerçeveler 3B model mimarisinde, görev odaklı modellemede ve öğrenme hedeflerinde kayda değer ilerleme göstermiş olsa da çoğu, 3B mimariyi sınırlı veriler, parametreler ve görev senaryolarıyla nispeten küçük bir ölçekte araştırıyor. Daha sonra farklı ortamlardaki gerçek zamanlı uygulamalara uygulanabilecek ölçeklenebilir 3 boyutlu gösterimleri öğrenmenin zorluğu büyük ölçüde keşfedilmemiş durumda.

Geçtiğimiz birkaç yılda ölçeklendirme devam ediyor büyük dil modelleri önceden eğitilmiş olanlar devrim yaratmaya yardımcı oldu doğal dil işleme etki alanı ve son çalışmalar, geliştiricilerin ölçeklenebilen ve gerçek dünyadaki uygulamalara aktarılabilen bir 2B temsili öğrenmek için bu başarıyı denemesine ve yeniden denemesine yol açan, veri ve model ölçeklemeyi kullanan dilden 3B'ye doğru bir çevirinin ilerlediğini göstermiştir. 

Uni3D, bir milyarın üzerinde parametre, 3 milyondan fazla metinle eşleştirilmiş 3 milyondan fazla görüntü ve bir milyonun üzerinde 10B şekil ölçeğinde sınırlarını test eden büyük ölçekli 70B temsilleri öğrenmek amacıyla geliştirilmiş, ölçeklenebilir ve birleşik bir ön eğitim 3B çerçevesidir. . Aşağıdaki şekil sıfır atış doğruluğunu Uni3D çerçevesindeki parametrelerle karşılaştırmaktadır. Uni3D çerçevesi, 3D gösterimleri 6 milyondan bir milyarın üzerine başarıyla ölçeklendirir. 

Uni3D çerçevesi bir 2D ViT veya Görüntü Trafosu görüntü metniyle hizalanmış özellikleri 3B nokta bulutu özellikleriyle hizalamak için uçtan uca önceden eğitilen 3B kodlayıcı olarak. Uni3D çerçevesi, sırasıyla başlatma ve hedefler olarak önceden eğitilmiş 2D modellerin ve görüntü metni hizalanmış modellerin bolluğundan yararlanmak için bahane görevlerinden ve basit mimariden yararlanır, böylece 2D modellerin tüm potansiyelini ve bunları 3D dünyasına ölçeklendirme stratejilerini açığa çıkarır. Uni3D çerçevesinin esnekliği ve ölçeklenebilirliği şu şekilde ölçülür:

  1. Modeli ölçeklendirme 6M'den bir milyarın üzerinde parametreye. 
  2. Görselden denetlenen metne 2 boyutlu başlatma öz denetimli öğrenme
  3. 150 milyondan bir milyarın üzerinde parametreye ölçeklenen metin-görüntü hedef modeli. 

Geliştiriciler, Uni3D'nin sunduğu esnek ve birleştirilmiş çerçeve altında, her bir bileşenin ölçeklendirilmesi söz konusu olduğunda performansta tutarlı bir artış gözlemliyor. Büyük ölçekli 3B temsil öğrenimi aynı zamanda paylaşılabilir 2B ve ölçek büyütme stratejilerinden de büyük ölçüde yararlanır. 

Aşağıdaki şekilde görülebileceği gibi, Uni3D çerçevesi, birkaç atış ve sıfır atış ayarlarında önceki teknikle karşılaştırıldığında performansta bir artış göstermektedir. Uni3D çerçevesinin, ModelNet'te %88'in üzerinde sıfır atışlı sınıflandırma doğruluk puanı döndürdüğünü ve bu skorun, çeşitli son teknoloji denetim yöntemlerinin performansıyla aynı seviyede olduğunu belirtmekte fayda var. 

Ayrıca Uni3D çerçevesi, parça segmentasyonu ve açık dünya anlayışı gibi diğer temsili 3D görevleri gerçekleştirirken de birinci sınıf doğruluk ve performans sunar. Uni3D çerçevesi, 2B temel modelleri, geniş bir görev yelpazesinde daha sağlam 3B gösterimleri öğrenmek için birleşik ancak basit bir ön eğitim yaklaşımıyla ölçeklendirerek 3B görme ile 3B görme arasındaki boşluğu doldurmayı amaçlamaktadır; bu, sonuçta 2B'nin yakınsamasına yardımcı olabilir. ve geniş bir modalite yelpazesinde 3D görme.

Uni3D : İlgili Çalışma

Uni3D çerçevesi ilham alır ve önceki 3D temsil öğrenimi ve özellikle farklı yöntemler altındaki Temel modeller tarafından yapılan gelişmelerden ders alır. 

3D Temsil Öğrenme

3B temsil öğrenme yöntemi, nesnenin 3B anlaşılması için bulut noktalarını kullanır ve bu alan, yakın geçmişte geliştiriciler tarafından çokça araştırılmış ve bu bulut noktalarının, belirli yazılımlar kullanılarak kendi kendini denetleme altında önceden eğitilebileceği gözlemlenmiştir. Maske noktası modelleme, kendini yeniden yapılandırma ve karşılaştırmalı öğrenmeyi içeren 3 boyutlu bahane görevleri. 

Bu yöntemlerin sınırlı verilerle çalıştığını ve genellikle 3B veya NLP'den 2B'ye yönelik çok modlu gösterimleri araştırmadıklarını belirtmekte fayda var. Bununla birlikte, karşılaştırmalı öğrenme yöntemini kullanarak ham metinden görsel kavramları öğrenmede yüksek verimlilik sağlayan ve ayrıca aynı karşılaştırmalı öğrenme yöntemini kullanarak görüntü, metin ve bulut noktası özelliklerini hizalayarak 3 boyutlu temsilleri öğrenmeyi amaçlayan CLIP çerçevesinin son zamanlardaki başarısı. 

Temel Modelleri

Geliştiriciler, çok modlu temsillerin ölçeğini büyütmek ve birleştirmek için temel modeller tasarlamak üzerinde kapsamlı bir şekilde çalışıyorlar. Örneğin, NLP alanında geliştiriciler, önceden eğitilmiş dil modellerinin ölçeğini artırabilecek çerçeveler üzerinde çalışıyor ve bu, NLP endüstrisinde yavaş yavaş devrim yaratıyor. Ayrıca, geliştiricilerin dilin 2B modellere ilerlemesine yardımcı olmak için veri ve model ölçeklendirme tekniklerini kullanan çerçeveler üzerinde çalışması nedeniyle 2B görüş alanında da ilerlemeler gözlemlenebilir; ancak bu tür çerçevelerin 3B modeller için kopyalanması zordur. 3B verilerin sınırlı kullanılabilirliği ve 3B çerçevelerin birleştirilip ölçeklendirilmesi sırasında karşılaşılan zorluklar. 

Geliştiriciler, yukarıdaki iki çalışma alanından öğrenerek Uni3D çerçevesi, geliştiricilerin modelleri büyütmek için birleşik 3D veya NLP stratejilerini kullanarak Uni3D modelini ölçeklendirmelerine olanak tanıyan birleşik bir ViT veya Vision Transformer mimarisini kullanan, bir milyardan fazla parametreye sahip ilk 3B temel modeli. Geliştiriciler, bu yöntemin Uni3D çerçevesinin şu anda 2D ve 3D görmeyi ayıran boşluğu doldurmasına ve multimodal yakınsamayı kolaylaştırmasına olanak tanıyacağını umuyor

Uni3D : Yöntem ve Mimari

Yukarıdaki görüntü, büyük ölçekli 3B temsil öğrenimi için ölçeklenebilir ve birleşik bir eğitim öncesi 3B çerçeve olan Uni3D çerçevesinin genel genel bakışını göstermektedir. Geliştiriciler, Uni70D çerçevesini bir milyarın üzerinde parametreye ölçeklendirmek için 10 milyondan fazla metin ve bir milyondan fazla 3D şekille eşleştirilmiş 3 milyon görüntüden yararlanıyor. Uni3D çerçevesi, 2D kodlayıcı olarak bir 3D ViT veya Vision Transformer kullanır ve bu daha sonra metin görüntüsü verilerini 3D bulut noktası özellikleriyle hizalamak için uçtan uca eğitilir ve Uni3D çerçevesinin istenen verimliliği ve doğruluğu sunmasına olanak tanır. geniş bir kıyaslama yelpazesi. Şimdi Uni3D çerçevesinin çalışmasına detaylı bir göz atalım. 

Uni3D Çerçevesini Ölçeklendirme

Bulut noktası temsili öğrenimine ilişkin önceki çalışmalar, geleneksel olarak ağırlıklı olarak geniş bir uygulama yelpazesinde daha iyi performans sağlayan ve küçük ölçekli veri kümeleri sayesinde sınırlı miktarda veri üzerinde çalışan belirli model mimarilerinin tasarlanmasına odaklanmıştı. Ancak son çalışmalar, 3D'de ölçeklenebilir ön eğitim kullanma olasılığını keşfetmeye çalıştı ancak sınırlı 3D verilerinin bulunması nedeniyle önemli bir sonuç elde edilemedi. 3D çerçevelerin ölçeklenebilirlik sorununu çözmek için Uni3D çerçevesi, Vision Transformer'ı neredeyse yansıtan vanilya transformatör yapısının gücünden yararlanır ve model boyutunu ölçeklendirmek için birleşik 2D veya NLP ölçeklendirme stratejilerini kullanarak ölçeklendirme sorunlarını çözebilir. 

Bulut noktası temsili öğrenimine ilişkin önceki çalışmalar, geleneksel olarak ağırlıklı olarak geniş bir uygulama yelpazesinde daha iyi performans sağlayan ve küçük ölçekli veri kümeleri sayesinde sınırlı miktarda veri üzerinde çalışan belirli model mimarilerinin tasarlanmasına odaklanmıştı. Ancak son çalışmalar, 3D'de ölçeklenebilir ön eğitim kullanma olasılığını keşfetmeye çalıştı ancak sınırlı 3D verilerinin bulunması nedeniyle önemli bir sonuç elde edilemedi. 3D çerçevelerin ölçeklenebilirlik sorununu çözmek için Uni3D çerçevesi, Vision Transformer'ı neredeyse yansıtan vanilya transformatör yapısının gücünden yararlanır ve model boyutunu ölçeklendirmek için birleşik 2D veya NLP ölçeklendirme stratejilerini kullanarak ölçeklendirme sorunlarını çözebilir. 

Uni3D'nin başlatılması

3 boyutlu temsillerin ölçeklendirilmesiyle ilgili önceki çalışmalarda karşılaşılan bir diğer büyük zorluk, yakınsamadaki zorluklar ve modellerin büyük boyutunun bir sonucu olan aşırı uyumdu. Bu engelin üstesinden gelmek için etkili bir yaklaşım, bireysel 3B omurgaları belirtilen 3B bahane görevleriyle önceden eğitmek ve önceden eğitilmiş parametreleri başlatmaktır. Bununla birlikte, yaklaşıma yüksek eğitim maliyetleri eşlik etmektedir ve eğitim amaçlı kullanılabilen sınırlı miktardaki 3 boyutlu veriler sayesinde modlar arası öğrenme için sağlam bir başlatma oluşturmak da zordur. 

Uni3D çerçevesi, yapısı ViT'ye çok benzeyen bir vanilya transformatöründen yararlanır. Bu yaklaşımla Uni3D çerçevesi, Uni3D çerçevesini başlatmak için doğal olarak önceden eğitilmiş büyük modelleri diğer yöntemlerle birlikte benimseyebilir. 

Çok Modlu Hizalama

Uni3D çerçevesi, OpenShape ve ULIP çerçevelerine benzer paradigmalardan yararlanarak görüntü, dil ve nokta bulutları arasındaki çoklu model hizalamalarını öğrenmeye çalışır. Ayrıca, diğer yöntemlerle adil bir karşılaştırma sağlamak için Uni3D çerçevesi, eğitim amacıyla OpenShape'in birleştirilmiş 3D veri kümesini kullanır. OpenShape'in bu birleştirilmiş veri kümesi 4 3D veri kümesinden oluşur: 

  1. Objaverse. 
  2. ShapeNet. 
  3. 3D-GELECEK. 
  4. ASG. 

Deneyler ve Sonuçlar

Uni3D çerçevesi, sıfır atış ve az atış ayarlarındaki performansı, açık dünya anlayışlarına ilişkin sonuçlar ve daha fazlası dahil olmak üzere farklı ortamlarda ve çeşitli sınıflandırma görevlerinde test edilir. Gelin bu sonuçlara detaylı bir şekilde bakalım.

Sıfır Atış Şekli Sınıflandırması

Sıfır atışlı şekil sınıflandırma görevlerinde Uni3D çerçevesinin performansını değerlendirmek için geliştiriciler, ModelNet, ScanObjNN ve Objaverse-LVIS kıyaslama veri kümeleri dahil olmak üzere üç kıyaslama üzerinde deneyler yürütüyor. ModelNet ve ScanObjNN, sınıflandırma görevleri için yaygın olarak kullanılan veri kümeleridir ve sırasıyla 15 ve 40 nesne kategorisinden oluşur; Objaverse-LVIS karşılaştırması ise 40,000'den fazla kategoride 1,100'den fazla nesneden oluşan temizlenmiş ve açıklamalı bir veri kümesidir. Çerçeveler arasındaki karşılaştırma aşağıdaki resimde gösterilmektedir ve görülebileceği gibi Uni3D çerçevesi, farklı ortamlarda önceki son teknoloji çerçevelerden önemli ölçüde daha iyi performans göstermektedir. 

Birkaç Atışlı Doğrusal Problama

Yapay zekada Doğrusal İnceleme, bir çerçevenin veya modelin öğrendiği gösterimleri değerlendirmek için kullanılan yaygın bir yöntemdir. Uni3D'nin doğrusal araştırma yeteneğini değerlendirmek için geliştiriciler, OpenShape gibi ortak ayarları kullanarak Uni3D çerçevesinin parametrelerini dondururlar. Bunu takiben geliştiriciler, birkaç adımlı sınıf etiketleri kullanarak Uni3D için doğrusal bir sınıflandırıcıyı eğitir. Aşağıdaki şekil, Objaverse-LVIS veri kümesindeki farklı çerçevelerin doğrusal araştırma yeteneğini gösterir ve modelin 10 rastgele tohumdaki ortalama performansını gösterir. Görüldüğü gibi Uni3D çerçevesi, farklı birkaç çekim ayarları altında mevcut yöntemlerden önemli ölçüde daha iyi performans gösteriyor. 

Açık Dünya Anlayışı

Uni3D çerçevesinin gerçek dünyadaki şekilleri ve nesneleri gerçek zamanlı olarak anlama yeteneğini değerlendirmek amacıyla geliştiriciler, Uni3D'nin performansını keşfetmek için ScanNet ve CLIP veri kümelerini kullanıyor. Temel gerçek anlık bölümlendirmenin mevcut olduğunu ve birincil amacın, sıfır çekim ortamında her sahnenin bireysel anının kategorisini tanımak olduğunu belirtmekte fayda var. Sonuçlar aşağıdaki resimde gösterilmektedir. Görüldüğü gibi Uni3D çerçevesi, gerçek dünyayı anlama ve tanıma işlemini gerçekleştirirken olağanüstü sonuçlar sağlar. Uni3D çerçevesi, gerçek dünyadaki veri kümeleri üzerinde hiç eğitim almamış olmasına rağmen, mevcut çerçevelerden önemli bir farkla daha iyi performans gösteriyor. 

Modallar Arası Erişim

Uni3D çerçevesi tarafından öğrenilen çok modlu temsiller, çerçevenin metinlerden veya görüntülerden doğal olarak 3 boyutlu şekilleri almasına olanak tanıyabilir. 3B şekilleri almak için model, 3B şekillerin yerleştirmeleri ile bir sorgu metni isteminin veya sorgu görüntüsünün yerleştirmeleri arasındaki kosinüs benzerliğini hesaplar. Çerçeve daha sonra sorguya en çok benzeyen 3 boyutlu şekiller oluşturmak için KNN veya K En Yakın Komşu algoritmasını kullanır ve sonuçlar aşağıdaki şekilde gösterilmektedir. Görüldüğü gibi Uni3D çerçevesi, 3 boyutlu şekilleri elde etmek için gerçek dünya görüntülerini başarıyla kullanıyor. Ayrıca, eğitim görüntülerinin yalnızca görüntü oluşturma amaçlı olduğunu ve gerçek dünya ile eğitim görüntüleri arasındaki farkın önemli olduğunu belirtmekte fayda var. Ek olarak, model ayrıca iki giriş görüntüsü alır ve her iki görüntünün gömme ortalamaları ile bunların gömülü 3 boyutlu şekilleri arasındaki kosinüs benzerliğini kullanarak her iki giriş görüntüsüne benzer şekilleri alır. Sonuçlar, Uni3D'nin çeşitli 3D gösterimleri öğrenme ve birden fazla 2D sinyali algılama yeteneğini göstermesi açısından ilginçtir. 

İlk sütunda çerçeve, sorgu görüntülerine en çok benzeyen 2B şekilleri döndürmek için 3 sorgu görüntüsü kullanır. İkinci sütunda çerçeve, her iki giriş görüntüsüne benzeyen 3 boyutlu şekilleri almak için iki giriş görüntüsü kullanır. Son olarak, son sütunda model, sorgu metinlerini kullanır ve metin sorgusuna maksimum düzeyde benzeyen 3B şekilleri döndürür. 

Son Düşüncelerimiz

Bu yazıda, bir milyarın üzerinde parametre ölçeğinde sınırlarını test eden, 3 milyonun üzerinde görüntünün 3 milyonun üzerinde görüntü ile eşleştiği büyük ölçekli 3B gösterimleri öğrenmek amacıyla geliştirilen, ölçeklenebilir ve birleşik bir ön eğitim 10B çerçevesi olan Uni70D'den bahsettik. metinler ve bir milyondan fazla 3D şekil. Çerçevenin geliştiricileri, birleşik 3D veya NLP ölçeklendirme stratejileri kullanarak Uni2D çerçevesini ölçeklendirmelerine olanak tanıyan, ViT'lere eşdeğer yapıya sahip bir vanilya transformatörü eklediler. Ayrıca Uni3D çerçevesi, 2B dünyasına yönelik çok çeşitli önceden eğitilmiş 2B çerçevelerden ve 3B stratejilerden yararlanabilir. Deneysel sonuçlar, Uni3D çerçevesinin çok çeşitli ayarlarda doğru ve etkili sonuçlar vermesi ve mevcut en son teknolojiye sahip çerçevelerden daha iyi performans göstermesi nedeniyle Uni3D çerçevesinin büyük potansiyelini zaten göstermiştir. 

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.