Uploaded by delonixsen

PUBLIKASI TEKNIK DELONIX REVISI

advertisement
JURNAL TEKNIK ITS Vol. X, No. Y, (TAHUN) ISSN: 2337-3539 (2301-9271 Print)
1
Estimasi Pose 6D Menggunakan Kamera RGBD-NIR
Delonix Senjaya, Muhammad Attamimi, dan Djoko Purwanto
Teknik Elektro ITS
e-mail: delonixsenjaya0@gmail.com
Abstrak— Estimasi Pose adalah suatu metode penginderaan
visual yang berfungsi untuk memprediksi pose (position and
oritentation). Pose Estimation merupakan suatu teknik yang
akan sangat berguna dalam banyak bidang, khususnya pada
bidang Augmented Reality, Virtual Reality dan robotika, dengan
menggunakan input sensor kamera. 6D disini adalah 6 Degree
of Freedom (X, Y, Z, Roll, Pitch, dan Yaw). Hasil dari sistem 6D
Pose Estimation ini adalah posisi dan orientasi objek (translasi
dan rotasi), serta proyeksi pointcloud dari objek tersebut.
Tantangan selanjutnya adalah bagaimana sistem estimasi pose
bisa lebih robust terhadap tingkat pencahayaan yang berubah.
Umumnya metode dari estimasi pose hanya menggunakan
kamera RGB atau kombinasi kamera RGBD saja. Sensor NIR
akan ditambahkan agar kombinasi sensor bisa dipakai untuk
membuat sistem estimasi pose lebih tahan terhadap perubahan
pencahayaan, dengan tetap mempertahankan property
informasi dari ketiga sensor tersebut. Proses fusi informasi pada
RGB dan NIR akan dilakukan menggunakan Guided Filtering
Fusion. Pada hasil fusi, gambar RGB akan lebih dominan pada
saat pencahayaan cukup serta informasi pada gambar NIR
akan lebih dominan pada keadaan gelap, menjadikan fusi ini
menjanjikan untuk adaptasi berbagai skenario. Pada hasil
akhir percobaan dihasilkan perbandingan dimana metode fusi
informasi bisa bekerja dengan baik untuk estimasi pose dan bisa
diimplementasikan dengan dataset pribadi yang dibuat (dengan
formati LINEMOD). Pada kondisi terang, kombinasi sensor
RGB-D lebih unggul karena informasi yang ditangkap gambar
lebih banyak (3-channel), dan berguna untuk proses segmentasi,
dengan akurasi 81,8. Pada kondisi gelap, kombinasi sensor NIRD lebih unggul, karena estimasi pose lebih akurat meskipun
dilakukan tanpa cahaya tampak, dengan akurasi 86,6. Guided
Filtering Fusion pada input NIR dan RGB dapat membuat hasil
menjadi mendekati maksimal pada kedua kondisi pencahayaan.
Kata Kunci— Artificial Intelligence, Deep Learning, Estimasi
Pose, Neural Network, Pose Estimation
I. PENDAHULUAN
P
ada dunia robotika, penginderaan visual atau machine
vision sedang berkembang pesat. Dengan datangnya
teknologi ini, robot akan dapat memproses informasi dengan
menggunakan kamera, yang kemudian akan menghasilkan
informasi berguna, tanpa harus menggunakan terlalu banyak
sensor. Teknologi terkini dapat dilihat pada mobil buatan
Tesla dimana AI telah berkembang untuk belajar dalam
melakukan object tracking dengan lebih akurat menggunakan
kamera sebagai sensor utamanya. Penggunaan tunggal sensor
kamera RGB ataupun RGBD juga banyak dipakai pada
sistem-sistem keamanan, pengenalan, dan sebagai pengganti
sensor lainnya. Ini dimungkinkan karena pemrosesan gambar
yang semakin baik, sehingga gambar yang ditangkap oleh
kamera dapat diambil informasinya, dan dapat dikembangkan
lagi menghasilkan gabungan informasi lainnya. Hasil
pemrosesan gambar ini kemudian dapat diolah lagi
menggunakan sistem kecerdasan buatan yang dapat
mengenal pola atau pattern dari gambar yang telah diambil.
Estimasi pose adalah suatu metode penginderaan visual yang
berfungsi untuk memprediksi pose atau position and
oritentation. Pose Estimation merupakan suatu teknik yang
akan sangat berguna dalam banyak bidang, khususnya pada
bidang augmented reality, virtual reality dan robotika,
dengan menggunakan input sensor kamera. Hasil dari
estimasi pose 6D ini adalah orientasi objek, serta lokasi dari
objek tersebut. Orientasi tersebut akan tergantung dari posisi
kamera. Tentu hal ini akan berguna dalam dunia robotik,
khususnya ketika lengan robot ditugaskan untuk
memindahkan benda. Lengan robot tersebut harus tau
orientasi serta lokasi koordinat dari objek yang akan
dipindahkan tersebut. Hal ini memungkinkan robot untuk
beroperasi dengan aman dan efektif. Akronim D dalam 6D
adalah singkatan dari degree-of-freedom. Dengan
menggabungkan sistem dari machine vision dan inverse
kinematics, diharapkan robot dapat melakukan tugas dalam
mengambil objek, menyusun objek, atau memanipulasi posisi
objek.
II. URAIAN PENELITIAN
A. Estimasi Pose
Pose estimation atau estimasi pose adalah suatu metode
penginderaan visual yang berfungsi untuk memprediksi dan
atau melakukan tracking pada titik-titik penting tubuh
seseorang atau objek. 3D Pose Estimation merupakan suatu
teknik yang akan sangat berguna dalam banyak bidang,
khususnya AI dan Deep Learning, dengan hanya
menggunakan input kamera dan sensor sederhana lainnya.
Estimasi pose 6D merupakan suatu metode dalam mendeteksi
objek. 6D disini adalah singkatan dari 6 Degree of Freedom
(X, Y, Z, Roll, Pitch, dan Yaw). Hasil dari 6D Pose
Estimation ini adalah orientasi objek, serta lokasi dari objek
tersebut.
Metode estimasi pose sangatlah bervariasi dan beragam.
Terdapat banyak sistem program yang dapat digunakan untuk
mendeteksi keypoints pada seseorang dan objek yang
kemudian akan dipetakan kembali dengan informasi yang
telah didapatkan. Manusia termasuk dalam kategori objek
tertentu yang fleksibel. Dengan menekuk lengan atau kaki
kita, titik kunci akan berada di posisi yang berbeda relatif
terhadap orang lain. Sebagian besar benda mati bersifat kaku.
Misalnya, sudut-sudut batu bata selalu berjarak sama terlepas
dari orientasi batu bata. Memprediksi posisi benda-benda ini
JURNAL TEKNIK ITS Vol. X, No. Y, (TAHUN) ISSN: 2337-3539 (2301-9271 Print)
dikenal sebagai estimasi pose kaku. Namun, ada perbedaan
antara mendeteksi satu atau beberapa objek dalam gambar
atau video. Kedua pendekatan ini dapat disebut sebagai
estimasi tunggal dan multi-pose, dan sebagian besar cukup
jelas: Pendekatan estimasi pose tunggal mendeteksi dan
melacak satu orang atau objek, sedangkan pendekatan
estimasi multi pose mendeteksi dan melacak banyak orang
atau objek.
B. Guided Filtering Fusion
Guided Filtering adalah suatu metode filter digunakan
untuk deteksi tepi atau edge-detection yang menggunakan
filter pemulusan tepi-pertahankan untuk mendeteksi tepi.
Sistem ini memiliki model local-linear yang berarti model
tanpa bias. Diasumsikan bahwa pada daerah tertentu, satusatunya tempat yang akan terpengaruh adalah dari semua
piksel di dalam kotak. Gambar input menggunakan infromasi
dari gambar kedua yang disebut guide image. Gambar
panduan dapat menjadi gambar input itu sendiri dari versi
gambar yang sama.
Sedangkan pada pengaplikasiannya, Guided Filtering
Fusion adalah suatu metode fusi informasi, yang
menggabungkan 2 gambar. Fusi ini menggabungkan base dan
detail pada kedua gambar tersebut. Dapat dilihat pada
Gambar 1 beberapa tahapan penggabungan kedua gambar
tersebut.
2
Computer Vision. Salah satu modifikasi penting dalam
arsitektur U-Net adalah dalam proses upsampling, U-Net
memiliki sejumlah besar saluran fitur, yang memungkinkan
jaringan untuk menyebarkan informasi konteks ke lapisan
resolusi yang lebih tinggi.
Namun, karena hal ini, U-Net memiliki arsitektur yang
lebih mirip bentuk U dan tidak simetris. Jaringan tidak
memiliki lapisan yang terhubung sepenuhnya dan hanya
menggunakan bagian valid dari setiap konvolusi, yaitu peta
segmentasi saja berisi piksel, yang konteks lengkapnya
tersedia di gambar masukan. Strategi pemasangan ini penting
untuk menerapkan jaringan ke gambar besar, karena jika
tidak, resolusi akan dibatasi oleh memori GPU.
Gambar 2. Arsitektur U-Net yang lebih mirip bentuk U dan tidak simetris,
memiliki jalur kontraktif di sisi kiri, dan jalur ekspansif di sisi kanan.
Gambar 1. Ilustrasi Guided Filtering Fusion dari referensi [7]. Terdapat
beberapa tahapan untuk mengekstrak dan menggabungkan informasi dari
kedua gambar input.
Pertama, tahap yang dilakukan adalah untuk melakukan
average filtering untuk mendapatkan base layer pada kedua
gambar. Gambar asli kemudian akan dikurangi dengan base
layer untuk mendapatkan detail layer. Proses selanjutnya
adalaha weight map reconstruction dimana akan dilakukan
pengukuran sallency atau Sallency Measure di kedua gambar
awal. Kemudian akan didapatkan hasil berupa weight map.
Proses selanjutnya adalah untuk me-refine weight map yang
kemudian akan dirata-ratakan menggunakan teknik weighted
average. Dengan menggunakan weighted average, kedua
base layer dan detail layer akan digabungkan menjadi satu
gambar.
C. U-Net
U-Net [1] adalah suatu program atau model segmentasi
yang bertujuan awal untuk medical imaging dan
dikembangkan oleh Departemen Ilmu Komputer, Universitas
Freiburg. Karena strukturnya yang mudah dan fleksibel,
membuat model ini menjadi banyak dipakai dalam dunia
Network terdiri dari terdiri dari jalur kontraktif (sisi kiri)
dan jalur ekspansif (sisi kanan). Jalur kontrakrif ini mengikuti
arsitektur tipikal dari jaringan konvolusional. Ini terdiri dari
yang penerapan yang umum dipakai yakni dua konvolusi 3x3.
Masing-masing dari tahap konvolusi ini diikuti oleh unit
linier ReLU dan operasi max-pooling 2x2.
Selanjutnya, augmentasi data merupakan tahap yang
sangat penting untuk “mengajarkan” network tentang
invariance yang diinginkan dan ketangguhan atau robustness
terhadap kondisi tertentu, terlebih ketika hanya sedikit
sampel pelatihan yang disediakan.
D. DenseFusion oleh Iterative Dense Fusion
Secara mendasar, DenseFusion [2] memiliki arsitektur
sistem seperti Gambar 3 dibawah yang kemudian dibagi
menjadi beberapa bagian yang memiliki tugas masingmasing. Pada percobaan ini, kami membuat dataset yang
tidak hanya berisi RGBD saja namun penulsi menambahkan
data NIR sebagai perbandingan sensor.
Gambar 3. Diagram Blok Keseluruhan dari DenseFusion, sebuah network
yang menjadi landasan pekerjaan Tugas Akhir ini. DenseFusion mampu
digunakan dengan dataset custom, serta bisa dijalankan dengan dataset
LINEMOD, maupun YCB.
Tahap pertama pada DenseFusion sendiri adalah Object
Segmentation. Tahap Segmentasi ini menggunakan Network
JURNAL TEKNIK ITS Vol. X, No. Y, (TAHUN) ISSN: 2337-3539 (2301-9271 Print)
SegNet (mengikuti standar dari PoseCNN [3]), namun karena
masalah kompatiblitas, penulis menggantinya dengan
segmentasi dari U-Net.
Tahap kedua pada DenseFusion adalah proses pengolahan
pointcloud dengan PointNet. PointNet menggunakan MaxPooling untuk menghasilkan permutasi invarian pada
pengolahan point set yang acak / berantakan. Pada
Densefusion sendiri max-pooling ini diganti dengan average
pooling pada obyek yang simetris untuk meningkatkan
keberhasilan.
Selanjutnya adalah proses pengolahan input gambar
(RGB). Tujuan dari sistem color embeddings adalah untuk
mengekstrak feature per-piksel sedemikian rupa sehingga
kita dapat membentuk korespondensi hubungan antara fitur
pada 3D (pointcloud) dan fitur pada gambar. Pada percobaan
ini, NIR akan kita masukan sebagai perbandingan apakah
hasil akan sangat dipengaruhi oleh warna atau tidak.
Setelah mendapatkan kedua fitur (color embeddings dan
geometry embeddings) kedua fitur tersebut akan disatukan
dengan metode pixel-wise pada DenseFusion. Konkritnya,
prosedur ini akan mengaitkan fitur geometris dari setiap titik
ke gambar yang sesuai dengan fitur per-piksel berdasarkan
proyeksi ke bidang gambar yang menggunakan parameter
intrinsik dari kamera, sehingga dapat membentuk hubungan
korespondensi antara 3D fitur titik dan fitur gambar.)
Setelah dilakukan prediksi pada tahap awal, pointcloud
akan di-rotasi dan translasikan. Pada kasus ini loss adalah
perbedaan antara pose ground-truth dan pose yang sudah
ditransformasi tersebut. Dan kemudian sistem akan
melakukan learning untuk menemukan weights yang cocok
mendekati pose (translasi dan rotasi) pada ground-truth
dengan confidence level yang paling baik.
Loss pada sistem yang dipakai untuk tahap training
maupun testing pada sistem ini disebut ADD/ADD-S
(Average Distance for Model Points – Symmetry)
Perhitungan Loss (ADD) ini akan terbagi 2 antara objek,
objek asimetris yang didefinisikan sebagai berikut:
𝑝𝑝
1
∑𝑗𝑗��𝑅𝑅𝑅𝑅𝑗𝑗 + 𝑑𝑑� − �𝑅𝑅�𝑖𝑖 π‘₯π‘₯𝑗𝑗 + 𝑑𝑑̂𝑖𝑖 οΏ½οΏ½
(1)
∑𝑗𝑗 min || �𝑅𝑅𝑅𝑅𝑗𝑗 + 𝑑𝑑� − �𝑅𝑅�𝑖𝑖 π‘₯π‘₯π‘˜π‘˜ + π‘‘π‘‘Μ‚π‘˜π‘˜ οΏ½||
(2)
𝐿𝐿𝑖𝑖 =
𝑀𝑀
Serta persamaan loss simetris (ADD-S) dimana objek
simetris merupakan objek yang dapat menciptakan keambiguan pada saat proses deteksi pose karena texture dan
bentuk geometri yang uniform.
𝑝𝑝
𝐿𝐿𝑖𝑖 =
1
𝑀𝑀
0<π‘˜π‘˜<𝑀𝑀
Dimana, L adalah loss (ADD), sedangkan π‘₯π‘₯𝑗𝑗 adalah
indicator dari titik j yang merupakan titik yang disampel dari
obyek CAD secara acak sejumlah M. Kemudian, 𝑝𝑝 = [𝑅𝑅|𝑑𝑑]
adalah ground-truth pose dan merupakan generated pose dari
hasil fusi fitur pada dense-pixel ke i.
III. DESAIN SISTEM
A. Diagram Blok Implementasi Network
Pada Gambar 4 dapat dilihat keseluruhan blok sistem.
Pada tahap awal, dilakukan pengambilan data dari sensor.
Input tersebut kemudian akan diproses ke blok selanjutnya,
yakni proses fusing. Jika input dari sistem menggunakan
3
hanya RGB atau hanya NIR, maka proses Guided Filtering
Fusion tidak diperlukan.
Gambar 4. Diagram blok sistem dengan implementasi Guided Filtering
Fusion, U-Net, dan juga DenseFusion. Hasil dari gabungan sistem ini adalah
pose 6-dof (degree of freedom) dari obyek (dalam koordinat kamera), serta
visualisasi bounding box dari obyek tersebut.
Setelah proses segmentasi dari U-Net, input dari Depth
akan melalui struktur MLP dari PointNet [4] [5] dengan
average pooling. Network ini pertama akan memproses
gambar Depth yang di cuplik (crop) menggunakan mask
(groundtruth-mask) menjadi pointcloud menggunakan
parameter intrinsik dari kamera. Kemudian PointNet akan
mengekstrak fitur geometri dari pointcloud tersebut.
Proses selanjutnya melibatkan tahap dimana network CNN
pada DenseFusion akan memproses input dari gambar RGB,
NIR, atau RGB-NIR, proses ini menghasilkan analisa fitur
yang kemudian akan fitur pada gambar tersebut akan
dikaitkan (correspondencing) dengan pointcloud pada depth,
proses analisa ini disebut Color Embedding. Hasil dari CNN
encoder-decoder ini adalah mapping fitur berdimensi 128.
Setelah mengubah H × W × 3 menjadi H × W × drgb , kedua
fitur tersebut kemudian akan di fuse. Proses fusion ini akan
dilakukan secara local (per-pixel) dan kemudian akan
digabungkan (expansion) untuk menghasilkan global feature.
B. Pembuatan Dataset
Untuk mengambil penilaian dan menguji kerja dari setiap
sensor, pada penelitian ini terdapat 2 macam kondisi
pencahayaan yang dipakai. Pencahayaan cukup, dan
pencahayaan kurang (low light). Kedua kondisi ini kemudian
nanti akan dibandingkan. Pada skenario 1 (pencahayaan
cukup), kamera yang digunakan adalah Intel Realsense d435i,
dan pada skenario 2 (pencahayaan kurang), kamera yang
digunakan adalah Intel Realsense d435i, dilengkapi dengan
IR illuminator untuk sistem Infrared pada kamera.
Untuk tahapan awal, kami menggunakan sistem yang
sudah dibuat pada github program pihak ke-tiga
ObjectDatasetTools,
dengan
menambahkan
fungsi
pengambilan NIR. Setelah itu untuk mengambil informasi
objek 3D, kami menggunakan teknik Photogrammetry
forensik dengan kamera Mirrorless dan aplikasi Meshroom,
ditambah lagi dengan post-processing untuk pembersihan dan
rekonstruksi 3D scene/ objek tersebut.
Setelah merekam image dari Intel RealSense menggunakan
ObjectDatasetTools, tahap pertama adalah untuk melakukan
komputasi groundtruth (parameter intrinsik pada kamera
sudah diketahui) untuk mendapat gambaran awal dari
gerakan kamera serta posisi objek tersebut. Kemudian Scene
direkonstruksi oleh ObjectDatasetTools pada tahap
selanjutnya. Perlu diketahui bahwa hasil merupakan bentuk
pointcloud atau kumpulan titik, yang pada proses alignment
scene akan diubah pada akhirnya menjadi PLY object.
JURNAL TEKNIK ITS Vol. X, No. Y, (TAHUN) ISSN: 2337-3539 (2301-9271 Print)
Tahap selanjutnya adalah kami melakukan rekonstruksi
objek 3D untuk menghasilkan model objek yang lebih baik,
sebenarnya jika hasil dirasa memuaskan dalam scene diatas,
bisa dilakukan tahap post-processing secara langsung, namun
pada kasus project ini, dirasa gambar kurang baik untuk
dijadikan kandidat objek 3D nantinya. Sehingga rekonstruksi
objek dilakukan dengan tahapan dan aplikasi lain yaitu
Meshroom. Meshroom memungkinkan kita untuk melakukan
rekonstruksi gambar menjadi objek, dengan mengambil
banyak gambar pada sisi-sisi objek yang ada.
Setelah proses rekonstruksi dengan 80-120 gambar per
objek (memakan waktu sekitar 7-8 jam), akan didapat hasil
mesh dan texturing seperti pada gambar dibawah, diikuti
dengan proses pembersihan dan post-processing. Setelah
hasil dirasa baik, kemudian objek tersebut akan di sub-sample
menjadi pointcloud untuk nantinya disesuaikan ke scene
keseluruhan sebelumnya.
Setelah proses tersebut selesai, dengan aplikasi
CloudCompare, kita akan meng-align objek tersebut pada
posisi objek pada cuplikan besar sebelumnya (secara skala
dan posisi). Kemudian cuplikan besar akan dihapus
meninggalkan hanya objeknya saja. Kemudian pointcloud
yang sudah diposisikan akan kemudian direkonstruksi
menggunakan Poisson Surface Reconstruction untuk diubah
menjadi mesh dalam bentuk PLY.
(A)
(B)
Gambar 5. Hasil mesh dari obyek temple.ply (A) dan bottle.ply (B). Hasil
file CAD ini juga akan melalui tahap processing manual agar hasilnya lebih
baik dan sempurna.
Tahap selanjutnya yakni kita melakukan masking untuk
menghasilkan binary masked image untuk kemudian di-train
nantinya. Proses masking ini dapat dilakukan secara otomatis
untuk menghindari proses manual masking yang terlalu lama,
pada git ObjectDatasetTools. Proses masking ini didapat
dengan menggunakan hasil alignment pada scene
sebelumnya. Dengan mengalign objek pada scene pointcloud
pada gambar RGB/NIR pertama, gambar-gambar selanjutnya
akan ter-masking secara otomatis, dengan mengetahui
translasi dan rotasi kamera pada groundtruth sebelumnya.
C. Pembuatan Pose Ground-truth
Setelah mask dirasa sudah baik, maka kita akan membuat
file groundtruth dalam YAML serta Test dan Training list file
untuk dimasukan ke CNN pada DenseFusion nantinya. Pada
program ini kami menggunakan algoritma PNP (Perspective
N-Point) serta Rodriguez pada OpenCV yang ilustrasinya
dapat dilihat pada gambar dibawah ini.
Algoritma PNP bekerja untuk mengubah titik 2D pada
gambar serta informasi tambahan pada titik-titik Bounding
Box yakni representasi titik 3D objek untuk kemudian
menghasilkan matriks transformasi pada kamera. Matriks
tersebut akan melewati algoritma Rodriguez (OpenCV) untuk
kemudian menghasilkan matriks rotasi (3x3) yang diproses
4
menjadi matriks rotasi (1x9) dan vektor translasi (1x3).
Gambar 6. Ilustrasi Algoritma PNP, jika diketahui titik-titik yang saling
berkorespondensi dalam koordinat pixel pada gambar dan dalam koordinat 3
dimensi. Hasil dari algoritma ini adalah cam-pose.
D. Implementasi Guided Filtering Fusion
Sejatinya, gambar RGB akan mempunyai lebih banyak
informasi, namun gambar NIR akan lebih tahan atau robust
terhadap pergantian cahaya dan white-balance pada gambar.
Untuk membuat dan menguji hipotesis tersebut serta
menggabung kedua fitur RGB dan NIR, gambar akan di-fuse
menggunakan Guided Filtering Fusion, tingkat kecerahan
pada RGB dapat diatur sebelum di-fuse dengan NIR,
sehingga nantinya gambar lebih bervariasi serta proses
segmentasi dapat lebih baik. Hasil implementasi dapat dilihat
pada gambar 7.
Gambar 7. Hasil fusi dari Guided Filtering Fusion. Fitur akan tergantung
dengan gambar mana yang lebih dominan. Ini bisa digunakan sebagai teknik
penggabungan fitur pada gambar infrared dan RGB.
E. Training, Testing, dan Evaluasi
Setelah lengkap, proses selanjutnya adalah melakukan
training pada sistem estimasi pose dari DenseFusion. Weights
kemudian disimpan dalam bentuk file pth. Setelah beberapa
epoch yang diinginkan, tahap evaluasi bisa dimulai dengan
menggunakan hasil segmentasi dari U-Net sebelumnya.
Pada percobaan ini dataset akan dibagi sebesar 4:1
(berdasarkan aturan yang dipakai secara umum [6]) antara
training dan testing untuk menghindari overfitting dan
underfitting. Dataset juga akan dibagi menjadi dataset RGBD, NIR-D, dan RGB-D-NIR. Masing-masing dataset akan ditrain dan dievaluasi keakuratannya. Weights dan model
kemudian juga dapat disimpan dan dapat digunakan untuk
transfer-learning atau keperluan evaluasi.
IV. ANALISA DATA
A. Hasil Kuantitatif Sistem
Evaluasi keakuratan dievaluasi sesuai program yang sudah
ada pada DenseFusion (mengikuti standar dari penilaian
sebelumnya dari PoseCNN [3]). Evaluasi keberhasilan dinilai
dari distance atau loss (ADD) terhadap groundtruth dari
setiap frame. Jika distance atau loss lebih kecil dari 0,1 kali
diameter objek, maka estimasi pose tersebut dianggap
berhasil.
JURNAL TEKNIK ITS Vol. X, No. Y, (TAHUN) ISSN: 2337-3539 (2301-9271 Print)
Tabel 1. Hasil Kuantitatif dari total 9 obyek pada 2 skenario pencahayaan.
Dapat dilihat RGB-D akan unggul pada pencahaayan cukup (50-70 lux).
NIR-D akan unggul pada pencahayaan kurang/ tidak ada cahaya (0-5 lux)
bottle
vase
circuit
soldier
temple
temple
(closed)
spongeball
box
meter
MEAN
Pencahayaan Cukup
RGBNIRRGBD
D
NIR-D
74,5
91,7
96,1
37,7
31,6
26
99,7
100
100
67,2
77,5
55,3
67,5
89,3
77,9
100
81,8
98,7
74,2
Pencahayaan Kurang
RGB- NIRRGBD
D
NIR-D
0
35,3
46,2
0
85,5
82,9
0
99,1
100
-
53,35
68,56
0
0
0
0
100
89,3
100
99,6
86,6
100
99,4
86,3
B. Hasil Kualitatif Sistem
Dapat dilihat dibawah ini hasil kualilatif dari sistem dalam
bentuk bounding box serta proyeksi pointcloud dari obyek
yang dikenal.
Gambar 8. Hasil kualitatif dari sistem menggunakan sensor RGB-D dalam
pencahayaan cukup.
Gambar 9. Hasil kualitatif dari sistem menggunakan sensor NIR-D dalam
pencahayaan kurang/ tidak ada cahaya.
V. KESIMPULAN
Berdasarkan percobaan yang telah dilakukan pada
pelaksanaan Tugas Akhir ini, dapat disimpulkan beberapa hal
terkait Estimasi Pose 6D Menggunakan Kamera RGB-DNIR. Sistem estimasi pose 6D dapat bekerja dengan
menggunakan kombinasi 3 sensor, yaitu kamera RGB, NIR,
dan Depth.
Pada kondisi terang, kombinasi sensor RGB-D lebih
unggul karena informasi yang ditangkap gambar lebih banyak
(3-channel), dan berguna untuk proses segmentasi, dengan
akurasi 81,8. Pada skenario 1, sebelumnya diharapkan agar
hasil RGB-D dan RGB-D-NIR dapat mendekati hasil dari
RGB-D, namun terdapat hasil fusi yang tidak baik, dan
karena faktor jumlah data yang tidak banyak, ini menjadi
masalah pada proses segmentasi ataupun learning. Pada
kondisi gelap, kombinasi sensor NIR-D lebih unggul, karena
5
estimasi pose lebih akurat meskipun dilakukan tanpa cahaya
tampak, dengan akurasi 86,6. Pada skenario 2, hasil RGB-DNIR sudah mendekati hasil NIR, sehingga proses fusi sudah
menjalankan tugasnya dengan baik.
Guided Filtering Fusion pada input NIR dan RGB dapat
membuat hasil menjadi mendekati maksimal pada kedua
kondisi pencahayaan. Jika terang, maka gambar akan
didominasi input dari RGB, dan jika gambar gelap dan hanya
ada input NIR yang tersedia, maka gambar akan didominasi
fitur dari NIR. Namun perlu di catat, bahwa dibeberapa
skenario pada frame, Fusion membuat segmentasi gambar
menjadi kurang baik, sehingga dapat mempengaruhi hasil
dari estimasi pose
DAFTAR PUSAKA
[1]
O. Ronneberger, P. Fischer and T. Brox, "U-Net: Convolutional
Networks for Biomedical Image Segmentation,"
arXiv:1505.04597v1, 2015.
[2]
C. Wang, D. Xu, Y. Zhu, R. Martín-Martín, C. Lu, L. Fei-Fei and S.
Savarese, "DenseFusion: 6D Object Pose Estimation by Iterative
Dense Fusion," arXiv:1901.04780v1 , 2019.
[3]
Yu Xiang, Tanner Scmidt, Venkatraman Narayan, Dieter Fox, "Pose
CNN: A Convolutional Neural Network for 6D Object Pose
Estimation in Cluttered Scenes," 2017.
[4]
D. Xu, D. Anguelov and A. Jain, "PointFusion: Deep Sensor Fusion
for 3D Bounding Box Estimation," arXiv 1711.10871v2, 2018.
[5]
C. R. Qi, H. Su, K. Mo and L. J. Guibas, "PointNet: Deep Learning
on Point Sets for 3D Classification and Segmentation,"
arXiv:1612.00593v2 [cs.CV], 2017.
[6]
V. L. Mahdi Rad, "BB8: A Scalable, Accurate, Robust to Partial
Occlusion Method for Predicting the 3D Poses of Challenging
Objects without Using Depth," arXiv:1703.10896, p. 5, 2017.
[7]
S. Li and X. K. :. J. Hu, "Image Fusion with Guided Filtering," IEEE
TRANSACTIONS ON IMAGE PROCESSING, VOL. 22, NO. 7, JULY
2013, p. 3, 2013.
[8]
J. Tremblay, T. To, B. Sundaralingam, Y. Xiang, D. Fox and S.
Birchfield, "Deep Object Pose Estimation for Semantic Robotic,"
arXiv:1809.10790v1, 2018.
Download