JURNAL TEKNIK ITS Vol. X, No. Y, (TAHUN) ISSN: 2337-3539 (2301-9271 Print) 1 Estimasi Pose 6D Menggunakan Kamera RGBD-NIR Delonix Senjaya, Muhammad Attamimi, dan Djoko Purwanto Teknik Elektro ITS e-mail: delonixsenjaya0@gmail.com Abstrak— Estimasi Pose adalah suatu metode penginderaan visual yang berfungsi untuk memprediksi pose (position and oritentation). Pose Estimation merupakan suatu teknik yang akan sangat berguna dalam banyak bidang, khususnya pada bidang Augmented Reality, Virtual Reality dan robotika, dengan menggunakan input sensor kamera. 6D disini adalah 6 Degree of Freedom (X, Y, Z, Roll, Pitch, dan Yaw). Hasil dari sistem 6D Pose Estimation ini adalah posisi dan orientasi objek (translasi dan rotasi), serta proyeksi pointcloud dari objek tersebut. Tantangan selanjutnya adalah bagaimana sistem estimasi pose bisa lebih robust terhadap tingkat pencahayaan yang berubah. Umumnya metode dari estimasi pose hanya menggunakan kamera RGB atau kombinasi kamera RGBD saja. Sensor NIR akan ditambahkan agar kombinasi sensor bisa dipakai untuk membuat sistem estimasi pose lebih tahan terhadap perubahan pencahayaan, dengan tetap mempertahankan property informasi dari ketiga sensor tersebut. Proses fusi informasi pada RGB dan NIR akan dilakukan menggunakan Guided Filtering Fusion. Pada hasil fusi, gambar RGB akan lebih dominan pada saat pencahayaan cukup serta informasi pada gambar NIR akan lebih dominan pada keadaan gelap, menjadikan fusi ini menjanjikan untuk adaptasi berbagai skenario. Pada hasil akhir percobaan dihasilkan perbandingan dimana metode fusi informasi bisa bekerja dengan baik untuk estimasi pose dan bisa diimplementasikan dengan dataset pribadi yang dibuat (dengan formati LINEMOD). Pada kondisi terang, kombinasi sensor RGB-D lebih unggul karena informasi yang ditangkap gambar lebih banyak (3-channel), dan berguna untuk proses segmentasi, dengan akurasi 81,8. Pada kondisi gelap, kombinasi sensor NIRD lebih unggul, karena estimasi pose lebih akurat meskipun dilakukan tanpa cahaya tampak, dengan akurasi 86,6. Guided Filtering Fusion pada input NIR dan RGB dapat membuat hasil menjadi mendekati maksimal pada kedua kondisi pencahayaan. Kata Kunci— Artificial Intelligence, Deep Learning, Estimasi Pose, Neural Network, Pose Estimation I. PENDAHULUAN P ada dunia robotika, penginderaan visual atau machine vision sedang berkembang pesat. Dengan datangnya teknologi ini, robot akan dapat memproses informasi dengan menggunakan kamera, yang kemudian akan menghasilkan informasi berguna, tanpa harus menggunakan terlalu banyak sensor. Teknologi terkini dapat dilihat pada mobil buatan Tesla dimana AI telah berkembang untuk belajar dalam melakukan object tracking dengan lebih akurat menggunakan kamera sebagai sensor utamanya. Penggunaan tunggal sensor kamera RGB ataupun RGBD juga banyak dipakai pada sistem-sistem keamanan, pengenalan, dan sebagai pengganti sensor lainnya. Ini dimungkinkan karena pemrosesan gambar yang semakin baik, sehingga gambar yang ditangkap oleh kamera dapat diambil informasinya, dan dapat dikembangkan lagi menghasilkan gabungan informasi lainnya. Hasil pemrosesan gambar ini kemudian dapat diolah lagi menggunakan sistem kecerdasan buatan yang dapat mengenal pola atau pattern dari gambar yang telah diambil. Estimasi pose adalah suatu metode penginderaan visual yang berfungsi untuk memprediksi pose atau position and oritentation. Pose Estimation merupakan suatu teknik yang akan sangat berguna dalam banyak bidang, khususnya pada bidang augmented reality, virtual reality dan robotika, dengan menggunakan input sensor kamera. Hasil dari estimasi pose 6D ini adalah orientasi objek, serta lokasi dari objek tersebut. Orientasi tersebut akan tergantung dari posisi kamera. Tentu hal ini akan berguna dalam dunia robotik, khususnya ketika lengan robot ditugaskan untuk memindahkan benda. Lengan robot tersebut harus tau orientasi serta lokasi koordinat dari objek yang akan dipindahkan tersebut. Hal ini memungkinkan robot untuk beroperasi dengan aman dan efektif. Akronim D dalam 6D adalah singkatan dari degree-of-freedom. Dengan menggabungkan sistem dari machine vision dan inverse kinematics, diharapkan robot dapat melakukan tugas dalam mengambil objek, menyusun objek, atau memanipulasi posisi objek. II. URAIAN PENELITIAN A. Estimasi Pose Pose estimation atau estimasi pose adalah suatu metode penginderaan visual yang berfungsi untuk memprediksi dan atau melakukan tracking pada titik-titik penting tubuh seseorang atau objek. 3D Pose Estimation merupakan suatu teknik yang akan sangat berguna dalam banyak bidang, khususnya AI dan Deep Learning, dengan hanya menggunakan input kamera dan sensor sederhana lainnya. Estimasi pose 6D merupakan suatu metode dalam mendeteksi objek. 6D disini adalah singkatan dari 6 Degree of Freedom (X, Y, Z, Roll, Pitch, dan Yaw). Hasil dari 6D Pose Estimation ini adalah orientasi objek, serta lokasi dari objek tersebut. Metode estimasi pose sangatlah bervariasi dan beragam. Terdapat banyak sistem program yang dapat digunakan untuk mendeteksi keypoints pada seseorang dan objek yang kemudian akan dipetakan kembali dengan informasi yang telah didapatkan. Manusia termasuk dalam kategori objek tertentu yang fleksibel. Dengan menekuk lengan atau kaki kita, titik kunci akan berada di posisi yang berbeda relatif terhadap orang lain. Sebagian besar benda mati bersifat kaku. Misalnya, sudut-sudut batu bata selalu berjarak sama terlepas dari orientasi batu bata. Memprediksi posisi benda-benda ini JURNAL TEKNIK ITS Vol. X, No. Y, (TAHUN) ISSN: 2337-3539 (2301-9271 Print) dikenal sebagai estimasi pose kaku. Namun, ada perbedaan antara mendeteksi satu atau beberapa objek dalam gambar atau video. Kedua pendekatan ini dapat disebut sebagai estimasi tunggal dan multi-pose, dan sebagian besar cukup jelas: Pendekatan estimasi pose tunggal mendeteksi dan melacak satu orang atau objek, sedangkan pendekatan estimasi multi pose mendeteksi dan melacak banyak orang atau objek. B. Guided Filtering Fusion Guided Filtering adalah suatu metode filter digunakan untuk deteksi tepi atau edge-detection yang menggunakan filter pemulusan tepi-pertahankan untuk mendeteksi tepi. Sistem ini memiliki model local-linear yang berarti model tanpa bias. Diasumsikan bahwa pada daerah tertentu, satusatunya tempat yang akan terpengaruh adalah dari semua piksel di dalam kotak. Gambar input menggunakan infromasi dari gambar kedua yang disebut guide image. Gambar panduan dapat menjadi gambar input itu sendiri dari versi gambar yang sama. Sedangkan pada pengaplikasiannya, Guided Filtering Fusion adalah suatu metode fusi informasi, yang menggabungkan 2 gambar. Fusi ini menggabungkan base dan detail pada kedua gambar tersebut. Dapat dilihat pada Gambar 1 beberapa tahapan penggabungan kedua gambar tersebut. 2 Computer Vision. Salah satu modifikasi penting dalam arsitektur U-Net adalah dalam proses upsampling, U-Net memiliki sejumlah besar saluran fitur, yang memungkinkan jaringan untuk menyebarkan informasi konteks ke lapisan resolusi yang lebih tinggi. Namun, karena hal ini, U-Net memiliki arsitektur yang lebih mirip bentuk U dan tidak simetris. Jaringan tidak memiliki lapisan yang terhubung sepenuhnya dan hanya menggunakan bagian valid dari setiap konvolusi, yaitu peta segmentasi saja berisi piksel, yang konteks lengkapnya tersedia di gambar masukan. Strategi pemasangan ini penting untuk menerapkan jaringan ke gambar besar, karena jika tidak, resolusi akan dibatasi oleh memori GPU. Gambar 2. Arsitektur U-Net yang lebih mirip bentuk U dan tidak simetris, memiliki jalur kontraktif di sisi kiri, dan jalur ekspansif di sisi kanan. Gambar 1. Ilustrasi Guided Filtering Fusion dari referensi [7]. Terdapat beberapa tahapan untuk mengekstrak dan menggabungkan informasi dari kedua gambar input. Pertama, tahap yang dilakukan adalah untuk melakukan average filtering untuk mendapatkan base layer pada kedua gambar. Gambar asli kemudian akan dikurangi dengan base layer untuk mendapatkan detail layer. Proses selanjutnya adalaha weight map reconstruction dimana akan dilakukan pengukuran sallency atau Sallency Measure di kedua gambar awal. Kemudian akan didapatkan hasil berupa weight map. Proses selanjutnya adalah untuk me-refine weight map yang kemudian akan dirata-ratakan menggunakan teknik weighted average. Dengan menggunakan weighted average, kedua base layer dan detail layer akan digabungkan menjadi satu gambar. C. U-Net U-Net [1] adalah suatu program atau model segmentasi yang bertujuan awal untuk medical imaging dan dikembangkan oleh Departemen Ilmu Komputer, Universitas Freiburg. Karena strukturnya yang mudah dan fleksibel, membuat model ini menjadi banyak dipakai dalam dunia Network terdiri dari terdiri dari jalur kontraktif (sisi kiri) dan jalur ekspansif (sisi kanan). Jalur kontrakrif ini mengikuti arsitektur tipikal dari jaringan konvolusional. Ini terdiri dari yang penerapan yang umum dipakai yakni dua konvolusi 3x3. Masing-masing dari tahap konvolusi ini diikuti oleh unit linier ReLU dan operasi max-pooling 2x2. Selanjutnya, augmentasi data merupakan tahap yang sangat penting untuk “mengajarkan” network tentang invariance yang diinginkan dan ketangguhan atau robustness terhadap kondisi tertentu, terlebih ketika hanya sedikit sampel pelatihan yang disediakan. D. DenseFusion oleh Iterative Dense Fusion Secara mendasar, DenseFusion [2] memiliki arsitektur sistem seperti Gambar 3 dibawah yang kemudian dibagi menjadi beberapa bagian yang memiliki tugas masingmasing. Pada percobaan ini, kami membuat dataset yang tidak hanya berisi RGBD saja namun penulsi menambahkan data NIR sebagai perbandingan sensor. Gambar 3. Diagram Blok Keseluruhan dari DenseFusion, sebuah network yang menjadi landasan pekerjaan Tugas Akhir ini. DenseFusion mampu digunakan dengan dataset custom, serta bisa dijalankan dengan dataset LINEMOD, maupun YCB. Tahap pertama pada DenseFusion sendiri adalah Object Segmentation. Tahap Segmentasi ini menggunakan Network JURNAL TEKNIK ITS Vol. X, No. Y, (TAHUN) ISSN: 2337-3539 (2301-9271 Print) SegNet (mengikuti standar dari PoseCNN [3]), namun karena masalah kompatiblitas, penulis menggantinya dengan segmentasi dari U-Net. Tahap kedua pada DenseFusion adalah proses pengolahan pointcloud dengan PointNet. PointNet menggunakan MaxPooling untuk menghasilkan permutasi invarian pada pengolahan point set yang acak / berantakan. Pada Densefusion sendiri max-pooling ini diganti dengan average pooling pada obyek yang simetris untuk meningkatkan keberhasilan. Selanjutnya adalah proses pengolahan input gambar (RGB). Tujuan dari sistem color embeddings adalah untuk mengekstrak feature per-piksel sedemikian rupa sehingga kita dapat membentuk korespondensi hubungan antara fitur pada 3D (pointcloud) dan fitur pada gambar. Pada percobaan ini, NIR akan kita masukan sebagai perbandingan apakah hasil akan sangat dipengaruhi oleh warna atau tidak. Setelah mendapatkan kedua fitur (color embeddings dan geometry embeddings) kedua fitur tersebut akan disatukan dengan metode pixel-wise pada DenseFusion. Konkritnya, prosedur ini akan mengaitkan fitur geometris dari setiap titik ke gambar yang sesuai dengan fitur per-piksel berdasarkan proyeksi ke bidang gambar yang menggunakan parameter intrinsik dari kamera, sehingga dapat membentuk hubungan korespondensi antara 3D fitur titik dan fitur gambar.) Setelah dilakukan prediksi pada tahap awal, pointcloud akan di-rotasi dan translasikan. Pada kasus ini loss adalah perbedaan antara pose ground-truth dan pose yang sudah ditransformasi tersebut. Dan kemudian sistem akan melakukan learning untuk menemukan weights yang cocok mendekati pose (translasi dan rotasi) pada ground-truth dengan confidence level yang paling baik. Loss pada sistem yang dipakai untuk tahap training maupun testing pada sistem ini disebut ADD/ADD-S (Average Distance for Model Points – Symmetry) Perhitungan Loss (ADD) ini akan terbagi 2 antara objek, objek asimetris yang didefinisikan sebagai berikut: ππ 1 ∑πποΏ½οΏ½π π π π ππ + π‘π‘οΏ½ − οΏ½π π οΏ½ππ π₯π₯ππ + π‘π‘Μππ οΏ½οΏ½ (1) ∑ππ min || οΏ½π π π π ππ + π‘π‘οΏ½ − οΏ½π π οΏ½ππ π₯π₯ππ + π‘π‘Μππ οΏ½|| (2) πΏπΏππ = ππ Serta persamaan loss simetris (ADD-S) dimana objek simetris merupakan objek yang dapat menciptakan keambiguan pada saat proses deteksi pose karena texture dan bentuk geometri yang uniform. ππ πΏπΏππ = 1 ππ 0<ππ<ππ Dimana, L adalah loss (ADD), sedangkan π₯π₯ππ adalah indicator dari titik j yang merupakan titik yang disampel dari obyek CAD secara acak sejumlah M. Kemudian, ππ = [π π |π‘π‘] adalah ground-truth pose dan merupakan generated pose dari hasil fusi fitur pada dense-pixel ke i. III. DESAIN SISTEM A. Diagram Blok Implementasi Network Pada Gambar 4 dapat dilihat keseluruhan blok sistem. Pada tahap awal, dilakukan pengambilan data dari sensor. Input tersebut kemudian akan diproses ke blok selanjutnya, yakni proses fusing. Jika input dari sistem menggunakan 3 hanya RGB atau hanya NIR, maka proses Guided Filtering Fusion tidak diperlukan. Gambar 4. Diagram blok sistem dengan implementasi Guided Filtering Fusion, U-Net, dan juga DenseFusion. Hasil dari gabungan sistem ini adalah pose 6-dof (degree of freedom) dari obyek (dalam koordinat kamera), serta visualisasi bounding box dari obyek tersebut. Setelah proses segmentasi dari U-Net, input dari Depth akan melalui struktur MLP dari PointNet [4] [5] dengan average pooling. Network ini pertama akan memproses gambar Depth yang di cuplik (crop) menggunakan mask (groundtruth-mask) menjadi pointcloud menggunakan parameter intrinsik dari kamera. Kemudian PointNet akan mengekstrak fitur geometri dari pointcloud tersebut. Proses selanjutnya melibatkan tahap dimana network CNN pada DenseFusion akan memproses input dari gambar RGB, NIR, atau RGB-NIR, proses ini menghasilkan analisa fitur yang kemudian akan fitur pada gambar tersebut akan dikaitkan (correspondencing) dengan pointcloud pada depth, proses analisa ini disebut Color Embedding. Hasil dari CNN encoder-decoder ini adalah mapping fitur berdimensi 128. Setelah mengubah H × W × 3 menjadi H × W × drgb , kedua fitur tersebut kemudian akan di fuse. Proses fusion ini akan dilakukan secara local (per-pixel) dan kemudian akan digabungkan (expansion) untuk menghasilkan global feature. B. Pembuatan Dataset Untuk mengambil penilaian dan menguji kerja dari setiap sensor, pada penelitian ini terdapat 2 macam kondisi pencahayaan yang dipakai. Pencahayaan cukup, dan pencahayaan kurang (low light). Kedua kondisi ini kemudian nanti akan dibandingkan. Pada skenario 1 (pencahayaan cukup), kamera yang digunakan adalah Intel Realsense d435i, dan pada skenario 2 (pencahayaan kurang), kamera yang digunakan adalah Intel Realsense d435i, dilengkapi dengan IR illuminator untuk sistem Infrared pada kamera. Untuk tahapan awal, kami menggunakan sistem yang sudah dibuat pada github program pihak ke-tiga ObjectDatasetTools, dengan menambahkan fungsi pengambilan NIR. Setelah itu untuk mengambil informasi objek 3D, kami menggunakan teknik Photogrammetry forensik dengan kamera Mirrorless dan aplikasi Meshroom, ditambah lagi dengan post-processing untuk pembersihan dan rekonstruksi 3D scene/ objek tersebut. Setelah merekam image dari Intel RealSense menggunakan ObjectDatasetTools, tahap pertama adalah untuk melakukan komputasi groundtruth (parameter intrinsik pada kamera sudah diketahui) untuk mendapat gambaran awal dari gerakan kamera serta posisi objek tersebut. Kemudian Scene direkonstruksi oleh ObjectDatasetTools pada tahap selanjutnya. Perlu diketahui bahwa hasil merupakan bentuk pointcloud atau kumpulan titik, yang pada proses alignment scene akan diubah pada akhirnya menjadi PLY object. JURNAL TEKNIK ITS Vol. X, No. Y, (TAHUN) ISSN: 2337-3539 (2301-9271 Print) Tahap selanjutnya adalah kami melakukan rekonstruksi objek 3D untuk menghasilkan model objek yang lebih baik, sebenarnya jika hasil dirasa memuaskan dalam scene diatas, bisa dilakukan tahap post-processing secara langsung, namun pada kasus project ini, dirasa gambar kurang baik untuk dijadikan kandidat objek 3D nantinya. Sehingga rekonstruksi objek dilakukan dengan tahapan dan aplikasi lain yaitu Meshroom. Meshroom memungkinkan kita untuk melakukan rekonstruksi gambar menjadi objek, dengan mengambil banyak gambar pada sisi-sisi objek yang ada. Setelah proses rekonstruksi dengan 80-120 gambar per objek (memakan waktu sekitar 7-8 jam), akan didapat hasil mesh dan texturing seperti pada gambar dibawah, diikuti dengan proses pembersihan dan post-processing. Setelah hasil dirasa baik, kemudian objek tersebut akan di sub-sample menjadi pointcloud untuk nantinya disesuaikan ke scene keseluruhan sebelumnya. Setelah proses tersebut selesai, dengan aplikasi CloudCompare, kita akan meng-align objek tersebut pada posisi objek pada cuplikan besar sebelumnya (secara skala dan posisi). Kemudian cuplikan besar akan dihapus meninggalkan hanya objeknya saja. Kemudian pointcloud yang sudah diposisikan akan kemudian direkonstruksi menggunakan Poisson Surface Reconstruction untuk diubah menjadi mesh dalam bentuk PLY. (A) (B) Gambar 5. Hasil mesh dari obyek temple.ply (A) dan bottle.ply (B). Hasil file CAD ini juga akan melalui tahap processing manual agar hasilnya lebih baik dan sempurna. Tahap selanjutnya yakni kita melakukan masking untuk menghasilkan binary masked image untuk kemudian di-train nantinya. Proses masking ini dapat dilakukan secara otomatis untuk menghindari proses manual masking yang terlalu lama, pada git ObjectDatasetTools. Proses masking ini didapat dengan menggunakan hasil alignment pada scene sebelumnya. Dengan mengalign objek pada scene pointcloud pada gambar RGB/NIR pertama, gambar-gambar selanjutnya akan ter-masking secara otomatis, dengan mengetahui translasi dan rotasi kamera pada groundtruth sebelumnya. C. Pembuatan Pose Ground-truth Setelah mask dirasa sudah baik, maka kita akan membuat file groundtruth dalam YAML serta Test dan Training list file untuk dimasukan ke CNN pada DenseFusion nantinya. Pada program ini kami menggunakan algoritma PNP (Perspective N-Point) serta Rodriguez pada OpenCV yang ilustrasinya dapat dilihat pada gambar dibawah ini. Algoritma PNP bekerja untuk mengubah titik 2D pada gambar serta informasi tambahan pada titik-titik Bounding Box yakni representasi titik 3D objek untuk kemudian menghasilkan matriks transformasi pada kamera. Matriks tersebut akan melewati algoritma Rodriguez (OpenCV) untuk kemudian menghasilkan matriks rotasi (3x3) yang diproses 4 menjadi matriks rotasi (1x9) dan vektor translasi (1x3). Gambar 6. Ilustrasi Algoritma PNP, jika diketahui titik-titik yang saling berkorespondensi dalam koordinat pixel pada gambar dan dalam koordinat 3 dimensi. Hasil dari algoritma ini adalah cam-pose. D. Implementasi Guided Filtering Fusion Sejatinya, gambar RGB akan mempunyai lebih banyak informasi, namun gambar NIR akan lebih tahan atau robust terhadap pergantian cahaya dan white-balance pada gambar. Untuk membuat dan menguji hipotesis tersebut serta menggabung kedua fitur RGB dan NIR, gambar akan di-fuse menggunakan Guided Filtering Fusion, tingkat kecerahan pada RGB dapat diatur sebelum di-fuse dengan NIR, sehingga nantinya gambar lebih bervariasi serta proses segmentasi dapat lebih baik. Hasil implementasi dapat dilihat pada gambar 7. Gambar 7. Hasil fusi dari Guided Filtering Fusion. Fitur akan tergantung dengan gambar mana yang lebih dominan. Ini bisa digunakan sebagai teknik penggabungan fitur pada gambar infrared dan RGB. E. Training, Testing, dan Evaluasi Setelah lengkap, proses selanjutnya adalah melakukan training pada sistem estimasi pose dari DenseFusion. Weights kemudian disimpan dalam bentuk file pth. Setelah beberapa epoch yang diinginkan, tahap evaluasi bisa dimulai dengan menggunakan hasil segmentasi dari U-Net sebelumnya. Pada percobaan ini dataset akan dibagi sebesar 4:1 (berdasarkan aturan yang dipakai secara umum [6]) antara training dan testing untuk menghindari overfitting dan underfitting. Dataset juga akan dibagi menjadi dataset RGBD, NIR-D, dan RGB-D-NIR. Masing-masing dataset akan ditrain dan dievaluasi keakuratannya. Weights dan model kemudian juga dapat disimpan dan dapat digunakan untuk transfer-learning atau keperluan evaluasi. IV. ANALISA DATA A. Hasil Kuantitatif Sistem Evaluasi keakuratan dievaluasi sesuai program yang sudah ada pada DenseFusion (mengikuti standar dari penilaian sebelumnya dari PoseCNN [3]). Evaluasi keberhasilan dinilai dari distance atau loss (ADD) terhadap groundtruth dari setiap frame. Jika distance atau loss lebih kecil dari 0,1 kali diameter objek, maka estimasi pose tersebut dianggap berhasil. JURNAL TEKNIK ITS Vol. X, No. Y, (TAHUN) ISSN: 2337-3539 (2301-9271 Print) Tabel 1. Hasil Kuantitatif dari total 9 obyek pada 2 skenario pencahayaan. Dapat dilihat RGB-D akan unggul pada pencahaayan cukup (50-70 lux). NIR-D akan unggul pada pencahayaan kurang/ tidak ada cahaya (0-5 lux) bottle vase circuit soldier temple temple (closed) spongeball box meter MEAN Pencahayaan Cukup RGBNIRRGBD D NIR-D 74,5 91,7 96,1 37,7 31,6 26 99,7 100 100 67,2 77,5 55,3 67,5 89,3 77,9 100 81,8 98,7 74,2 Pencahayaan Kurang RGB- NIRRGBD D NIR-D 0 35,3 46,2 0 85,5 82,9 0 99,1 100 - 53,35 68,56 0 0 0 0 100 89,3 100 99,6 86,6 100 99,4 86,3 B. Hasil Kualitatif Sistem Dapat dilihat dibawah ini hasil kualilatif dari sistem dalam bentuk bounding box serta proyeksi pointcloud dari obyek yang dikenal. Gambar 8. Hasil kualitatif dari sistem menggunakan sensor RGB-D dalam pencahayaan cukup. Gambar 9. Hasil kualitatif dari sistem menggunakan sensor NIR-D dalam pencahayaan kurang/ tidak ada cahaya. V. KESIMPULAN Berdasarkan percobaan yang telah dilakukan pada pelaksanaan Tugas Akhir ini, dapat disimpulkan beberapa hal terkait Estimasi Pose 6D Menggunakan Kamera RGB-DNIR. Sistem estimasi pose 6D dapat bekerja dengan menggunakan kombinasi 3 sensor, yaitu kamera RGB, NIR, dan Depth. Pada kondisi terang, kombinasi sensor RGB-D lebih unggul karena informasi yang ditangkap gambar lebih banyak (3-channel), dan berguna untuk proses segmentasi, dengan akurasi 81,8. Pada skenario 1, sebelumnya diharapkan agar hasil RGB-D dan RGB-D-NIR dapat mendekati hasil dari RGB-D, namun terdapat hasil fusi yang tidak baik, dan karena faktor jumlah data yang tidak banyak, ini menjadi masalah pada proses segmentasi ataupun learning. Pada kondisi gelap, kombinasi sensor NIR-D lebih unggul, karena 5 estimasi pose lebih akurat meskipun dilakukan tanpa cahaya tampak, dengan akurasi 86,6. Pada skenario 2, hasil RGB-DNIR sudah mendekati hasil NIR, sehingga proses fusi sudah menjalankan tugasnya dengan baik. Guided Filtering Fusion pada input NIR dan RGB dapat membuat hasil menjadi mendekati maksimal pada kedua kondisi pencahayaan. Jika terang, maka gambar akan didominasi input dari RGB, dan jika gambar gelap dan hanya ada input NIR yang tersedia, maka gambar akan didominasi fitur dari NIR. Namun perlu di catat, bahwa dibeberapa skenario pada frame, Fusion membuat segmentasi gambar menjadi kurang baik, sehingga dapat mempengaruhi hasil dari estimasi pose DAFTAR PUSAKA [1] O. Ronneberger, P. Fischer and T. Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation," arXiv:1505.04597v1, 2015. [2] C. Wang, D. Xu, Y. Zhu, R. Martín-Martín, C. Lu, L. Fei-Fei and S. Savarese, "DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion," arXiv:1901.04780v1 , 2019. [3] Yu Xiang, Tanner Scmidt, Venkatraman Narayan, Dieter Fox, "Pose CNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes," 2017. [4] D. Xu, D. Anguelov and A. Jain, "PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation," arXiv 1711.10871v2, 2018. [5] C. R. Qi, H. Su, K. Mo and L. J. Guibas, "PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation," arXiv:1612.00593v2 [cs.CV], 2017. [6] V. L. Mahdi Rad, "BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses of Challenging Objects without Using Depth," arXiv:1703.10896, p. 5, 2017. [7] S. Li and X. K. :. J. Hu, "Image Fusion with Guided Filtering," IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 22, NO. 7, JULY 2013, p. 3, 2013. [8] J. Tremblay, T. To, B. Sundaralingam, Y. Xiang, D. Fox and S. Birchfield, "Deep Object Pose Estimation for Semantic Robotic," arXiv:1809.10790v1, 2018.