Meta HOT3D Veri Setini Tanıttı

Meta, gelişmiş bilgisayar görüşü eğitimi için HOT3D veri setini duyurdu.

HOT3D'ye genel bakış. Veri kümesi, Aria [13] ve Quest 3'ten [41] yüksek kaliteli temel gerçek 3B pozlar ve ellerin ve nesnelerin modelleriyle açıklanmış çoklu görünümlü egosantrik görüntü akışlarını içerir. Aria'dan alınan üç çoklu görünüm karesi solda gösterilmektedir; ellerin ve nesnelerin 3B modellerinin konturları sırasıyla beyaz ve yeşil renktedir. Aria ayrıca SLAM ve göz bakışı bilgilerinden 3B nokta bulutları da sağlıyor (sağda).

Çoğu insan doğuştan ellerini başkalarıyla iletişim kurmak veya nesneleri tutup manipüle etmek için kullanabilirken, mevcut birçok robotik sistem yalnızca basit manuel görevlerde başarılıdır. Son yıllarda, dünya çapında bilgisayar bilimcileri, manuel görevleri tamamlayan insanların görüntülerini işleyebilen, elde edilen bilgileri robot manipülasyonunu iyileştirmek için kullanabilen ve böylece bir robotun hem insanlarla hem de çevresindeki nesnelerle etkileşimini geliştirebilen makine öğrenimi tabanlı modeller geliştirmektedir.

Benzer modeller, bilgisayar görüşüne dayanan insan-makine arayüzleri oluşturmak veya artırılmış ve sanal gerçeklik (AR ve VR) sistemlerinin yeteneklerini genişletmek için de kullanılabilir. Bu makine öğrenimi modellerini eğitmek için araştırmacıların, çeşitli gerçek dünya manuel görevlerini tamamlayan insanların açıklamalı görüntülerini içeren yüksek kaliteli veri kümelerine erişmeleri gerekir.

Meta Reality Labs araştırmacıları kısa bir süre önce, el-nesne etkileşimlerini analiz etmek için makine öğrenimi araştırmalarını hızlandırmaya yardımcı olabilecek yeni bir veri kümesi olan HOT3D'yi tanıttı. ArXiv ön baskı sunucusunda yayınlanan bir makalede sunulan bu veri kümesi, insan kullanıcıların çeşitli nesneleri tutup manipüle ettiği, egosantrik bir bakış açısından çekilmiş (yani, görevi tamamlayan kişinin ne göreceğini yansıtan) yüksek kaliteli ego merkezli 3D videolar içeriyor.

Prithviraj Banerjee, Sindi Shkodrani ve meslektaşları makalelerinde “3B'de benmerkezci el ve nesne takibi için halka açık bir veri kümesi olan HOT3D'yi tanıtıyoruz” diye yazdılar.

“Veri kümesi, 33 farklı katı nesneyle etkileşime giren 19 deneği, göz bakışı veya sahne nokta bulutları gibi çok modlu sinyallerin yanı sıra nesnelerin, ellerin ve kameraların 3B pozlarını ve ellerin ve nesnelerin 3B modellerini içeren kapsamlı temel gerçek ek açıklamalarını gösteren 833 dakikadan fazla (3,7 milyondan fazla görüntü) çoklu görünümlü RGB / tek renkli görüntü akışı sunuyor.”

Meta Reality Labs ekibi tarafından derlenen yeni veri seti, insanların nesneleri alıp gözlemlediği ve bir yüzeye geri koyduğu basit gösterileri içeriyor. Bununla birlikte, kullanıcıların mutfak gereçlerini alıp kullanmak, çeşitli yiyecekleri manipüle etmek, klavyede yazı yazmak gibi ofis ve ev ortamlarında yaygın olarak gözlemlenen eylemleri gerçekleştirdiğini gösteren daha ayrıntılı gösteriler de içeriyor.

Veri setinde yer alan açıklamalı görüntüler, Meta'da geliştirilen iki cihaz, yani Project Aria gözlükleri ve Quest 3 kulaklık kullanılarak toplanmıştır. Project Aria, artırılmış gerçeklik (AR) uygulamaları için prototip hafif algılama gözlüklerinin oluşturulmasıyla sonuçlandı.

Project Aria gözlükleri, video ve ses verilerini yakalayabilirken, aynı zamanda bunları takan kullanıcıların göz hareketlerini izleyebilir ve görüş alanlarındaki nesnelerin konumu hakkında bilgi toplayabilir. Veri toplamak için kullanılan ikinci cihaz olan Quest 3, Meta'da geliştirilen ve piyasada satılan bir sanal gerçeklik (VR) başlığıdır.

El içi nesnelerin 2B segmentasyonuna ilişkin örnek sonuçlar.

Hareket yakalama laboratuvarı. HOT3D veri seti, birkaç düzine kızılötesi dış merkezli OptiTrack kamera ve aydınlatma değişkenliği için ışık difüzör panelleri ile donatılmış bir hareket yakalama teçhizatı kullanılarak toplanmıştır.

Banerjee, Shkodrani ve meslektaşları, “Temel gerçek pozlar, ellere ve nesnelere takılan küçük optik işaretleyiciler kullanılarak profesyonel bir hareket yakalama sistemi tarafından elde edildi” diye yazdı. “El açıklamaları UmeTrack ve MANO formatlarında sağlanmıştır ve nesneler, şirket içi bir tarayıcı tarafından elde edilen PBR malzemeli 3B kafeslerle temsil edilmektedir.”

HOT3D veri setinin robotik ve bilgisayarla görme alanındaki araştırmalar için potansiyelini değerlendirmek amacıyla araştırmacılar bu veri setini üç farklı görevde temel modelleri eğitmek için kullandılar. Bu modellerin HOT3D'de bulunan çoklu görünüm verileri üzerinde eğitildiklerinde, tek bir bakış açısını yakalayan gösteriler üzerinde eğitildiklerinden önemli ölçüde daha iyi performans gösterdiklerini buldular.

“Deneylerimizde, üç popüler görev için çoklu görüş egosantrik verilerinin etkinliğini gösterdik: 3B el takibi, 6DoF nesne poz tahmini ve bilinmeyen el içi nesnelerin 3B kaldırılması” diye yazıyor Banerjee, Shkodrani ve meslektaşları. “HOT3D tarafından benzersiz bir şekilde kıyaslanabilen değerlendirilmiş çoklu görünüm yöntemleri, tek görünümlü muadillerinden önemli ölçüde daha iyi performans gösteriyor.”

HOT3D veri seti açık kaynaklıdır ve dünya çapındaki araştırmacılar tarafından Project Aria web sitesinden indirilebilir. Gelecekte, insan-makine arayüzleri, robotlar ve diğer bilgisayar görüşü tabanlı sistemler de dahil olmak üzere çeşitli teknolojilerin geliştirilmesine ve ilerlemesine katkıda bulunabilir.

Onur Kara
Onur Kara

Elektrik-Elektronik Mühendisi

ADMİN
PROFİL

Yorum yazabilmek için ÜYE olmanız gerekiyor. Eğer ÜYE iseniz lütfen GİRİŞ yapınız.



0 Yorum

Üye Girişi

Önerilenler

En Yeniler

Öne Çıkan Videolar

Yapay Zeka Haberleri

Kuantum Bilişim Haberleri

Kategoriler

Etiketler