Gemini ile Beynini Yeniden Programla!
- DİYALOG BAZLI YZ
- 15:44, Nis 07

Çoğu insan doğuştan ellerini başkalarıyla iletişim kurmak veya nesneleri tutup manipüle etmek için kullanabilirken, mevcut birçok robotik sistem yalnızca basit manuel görevlerde başarılıdır. Son yıllarda, dünya çapında bilgisayar bilimcileri, manuel görevleri tamamlayan insanların görüntülerini işleyebilen, elde edilen bilgileri robot manipülasyonunu iyileştirmek için kullanabilen ve böylece bir robotun hem insanlarla hem de çevresindeki nesnelerle etkileşimini geliştirebilen makine öğrenimi tabanlı modeller geliştirmektedir.
Benzer modeller, bilgisayar görüşüne dayanan insan-makine arayüzleri oluşturmak veya artırılmış ve sanal gerçeklik (AR ve VR) sistemlerinin yeteneklerini genişletmek için de kullanılabilir. Bu makine öğrenimi modellerini eğitmek için araştırmacıların, çeşitli gerçek dünya manuel görevlerini tamamlayan insanların açıklamalı görüntülerini içeren yüksek kaliteli veri kümelerine erişmeleri gerekir.
Meta Reality Labs araştırmacıları kısa bir süre önce, el-nesne etkileşimlerini analiz etmek için makine öğrenimi araştırmalarını hızlandırmaya yardımcı olabilecek yeni bir veri kümesi olan HOT3D'yi tanıttı. ArXiv ön baskı sunucusunda yayınlanan bir makalede sunulan bu veri kümesi, insan kullanıcıların çeşitli nesneleri tutup manipüle ettiği, egosantrik bir bakış açısından çekilmiş (yani, görevi tamamlayan kişinin ne göreceğini yansıtan) yüksek kaliteli ego merkezli 3D videolar içeriyor.
Prithviraj Banerjee, Sindi Shkodrani ve meslektaşları makalelerinde “3B'de benmerkezci el ve nesne takibi için halka açık bir veri kümesi olan HOT3D'yi tanıtıyoruz” diye yazdılar.
“Veri kümesi, 33 farklı katı nesneyle etkileşime giren 19 deneği, göz bakışı veya sahne nokta bulutları gibi çok modlu sinyallerin yanı sıra nesnelerin, ellerin ve kameraların 3B pozlarını ve ellerin ve nesnelerin 3B modellerini içeren kapsamlı temel gerçek ek açıklamalarını gösteren 833 dakikadan fazla (3,7 milyondan fazla görüntü) çoklu görünümlü RGB / tek renkli görüntü akışı sunuyor.”
Meta Reality Labs ekibi tarafından derlenen yeni veri seti, insanların nesneleri alıp gözlemlediği ve bir yüzeye geri koyduğu basit gösterileri içeriyor. Bununla birlikte, kullanıcıların mutfak gereçlerini alıp kullanmak, çeşitli yiyecekleri manipüle etmek, klavyede yazı yazmak gibi ofis ve ev ortamlarında yaygın olarak gözlemlenen eylemleri gerçekleştirdiğini gösteren daha ayrıntılı gösteriler de içeriyor.
Veri setinde yer alan açıklamalı görüntüler, Meta'da geliştirilen iki cihaz, yani Project Aria gözlükleri ve Quest 3 kulaklık kullanılarak toplanmıştır. Project Aria, artırılmış gerçeklik (AR) uygulamaları için prototip hafif algılama gözlüklerinin oluşturulmasıyla sonuçlandı.
Project Aria gözlükleri, video ve ses verilerini yakalayabilirken, aynı zamanda bunları takan kullanıcıların göz hareketlerini izleyebilir ve görüş alanlarındaki nesnelerin konumu hakkında bilgi toplayabilir. Veri toplamak için kullanılan ikinci cihaz olan Quest 3, Meta'da geliştirilen ve piyasada satılan bir sanal gerçeklik (VR) başlığıdır.


Banerjee, Shkodrani ve meslektaşları, “Temel gerçek pozlar, ellere ve nesnelere takılan küçük optik işaretleyiciler kullanılarak profesyonel bir hareket yakalama sistemi tarafından elde edildi” diye yazdı. “El açıklamaları UmeTrack ve MANO formatlarında sağlanmıştır ve nesneler, şirket içi bir tarayıcı tarafından elde edilen PBR malzemeli 3B kafeslerle temsil edilmektedir.”
HOT3D veri setinin robotik ve bilgisayarla görme alanındaki araştırmalar için potansiyelini değerlendirmek amacıyla araştırmacılar bu veri setini üç farklı görevde temel modelleri eğitmek için kullandılar. Bu modellerin HOT3D'de bulunan çoklu görünüm verileri üzerinde eğitildiklerinde, tek bir bakış açısını yakalayan gösteriler üzerinde eğitildiklerinden önemli ölçüde daha iyi performans gösterdiklerini buldular.
“Deneylerimizde, üç popüler görev için çoklu görüş egosantrik verilerinin etkinliğini gösterdik: 3B el takibi, 6DoF nesne poz tahmini ve bilinmeyen el içi nesnelerin 3B kaldırılması” diye yazıyor Banerjee, Shkodrani ve meslektaşları. “HOT3D tarafından benzersiz bir şekilde kıyaslanabilen değerlendirilmiş çoklu görünüm yöntemleri, tek görünümlü muadillerinden önemli ölçüde daha iyi performans gösteriyor.”
HOT3D veri seti açık kaynaklıdır ve dünya çapındaki araştırmacılar tarafından Project Aria web sitesinden indirilebilir. Gelecekte, insan-makine arayüzleri, robotlar ve diğer bilgisayar görüşü tabanlı sistemler de dahil olmak üzere çeşitli teknolojilerin geliştirilmesine ve ilerlemesine katkıda bulunabilir.

