UNIVERSITAS INDONESIA TRANSLASI CITRA WAJAH DARI CITRA SKETSA WAJAH DENGAN MENGGUNAKAN GENERATIVE ADVERSARIAL NETWORK TESIS DINO HARIATMA PUTRA 1606964654 FAKULTAS ILMU KOMPUTER PROGRAM STUDI MAGISTER ILMU KOMPUTER DEPOK APRIL 2019 ii ABSTRAK Nama : Dino Hariatma Putra Program Studi : Magister Ilmu Komputer Judul : Translasi Citra Wajah dari Citra Sketsa Wajah dengan menggunakan Generative Adversarial Network. Generative Adversarial Network (GAN) adalah salah satu framework dari deep learning dalam model generatif GAN itu framework atau klasifikasi? Kalau dari literatur yg saya baca sih salah satu klasifikasi dari ML. Kemudian model generatif setahu saya pendekatan, sehingga menurut saya kalimar pertama perlu diperjelas. Model generatif bertujuan untuk mensintesis sebuah data baru sehingga memiliki sebaran distribusi sesuai dengan distribusi data asli. Pada perkembangan saat ini, GAN tidak hanya digunakan untuk mensintesis data dari suatu noise, tetapi telah mulai digunakan untuk mentranslasi (menerjemahkan?) data dari suatu domain ke data dengan domain berbeda. Beberapa penelitian yang telah dikembangkan antara lain, CycleGAN, Pix2pix, dan juga Domain Transfer Network. Pada penelitian-penelitian tersebut, belum menggunakan wajah sebagai obyek translasi, karena citra wajah memiliki struktur yang cukup kompleks jika dibandingkan dengan obyek-obyek lainnya. Pada penelitian ini didapatkan sebuah model untuk Translasi Citra Sketsa Wajah menjadi Citra Wajah dan juga Translasi Citra Wajah menjadi Citra Sketsa Wajah. Hasil yang diperoleh dari pengujian model U-CycleGAN dengan SSIM-Loss rata-rata score SSIM adalah 0.8847 untuk translasi sketsa – foto – sketsa dan untuk translasi foto – sketsa – foto adalah 0.6865. Kata Kunci: Generative Adversarial Network, Deep Learning, Sintesis, Translasi, Citra Wajah, Sketsa Wajah, CycleGAN, Pix2pix, Domain Transfer Network. Universitas Indonesia iii ABSTRACT Name : Dino Hariatma Putra Study Program : Magister Ilmu Komputer Title : Translation of Face Images from Face Sketch Images by using Generative Adversarial Network. Generative Adversarial Network (GAN) is one of the frameworks of deep learning in generative models. The generative model aims to synthesize a new data so that it has a distribution of distribution in accordance with the original data distribution. In the current development, GAN is not only used to synthesize data from a single noise, but has begun to be used to translate data from a domain to data with different domains. Some studies that have been developed for example, CycleGAN, Pix2pix, and Domain Transfer Network. At those studies, face has not been used as translation object, because face images have fairly complex structure compared to other objects. In this study, a model was obtained to translate the image of a face sketch into a face image and also the translation of a face image into an image of a face sketch. The results obtained from testing the U-CycleGAN model with the SSIM-Loss average SSIM score is 0.8847 for the translation of sketch - photo - sketchs and for the translation of photo – sketch – photo is 0.6865. Keywords: Generative Adversarial Network, Deep Learning, Synthesis, Translation, Face Image, Face Sketch, CycleGAN, Pix2pix, Domain Transfer Network. Universitas Indonesia iv DAFTAR ISI HALAMAN JUDUL ................................................................................................i ABSTRAK ................................................................................................................ii ABSTRACT ..............................................................................................................iii DAFTAR ISI .............................................................................................................iv DAFTAR GAMBAR ................................................................................................vi DAFTAR TABEL ....................................................................................................vii DAFTAR LAMPIRAN ............................................................................................viii BAB I PENDAHULUAN 1 1.1 Latar Belakang .....................................................................................3 1.2 Perumusan Masalah .............................................................................3 1.3 Tujuan Penelitian .................................................................................3 1.4 Batasan Masalah...................................................................................3 1.5 Sistematika Penulisan ..........................................................................3 BAB II LANDASAN TEORI 4 2.1 Pengolahan Citra ..................................................................................4 2.2 Neural Network ....................................................................................5 2.3 Generative Adversarial Network..........................................................8 2.4 SSIM...................................................................................................10 Universitas Indonesia v BAB III GENERATIVE ADVERSARIAL NETWORK UNTUK TRANSLASI CITRA 12 3.1 Translasi Citra dengan metode Konvensional ...................................... 12 3.2 Translasi Citra dengan GAN ..............................................................13 3.3 Translasi Citra antara Sketsa dan Foto ...............................................15 3.4 Fokus Penelitian dan Kontribusi ........................................................16 3.5 U-CycleGAN ......................................................................................17 BAB IV EKSPERIMEN, HASIL, DAN ANALISA 20 4.1 Desain Eksperimen ............................................................................20 4.1.1 Dataset ....................................................................................20 4.1.2 Evaluasi ..................................................................................21 4.2 Eksperimen .........................................................................................22 BAB V 4.2.1 Eksperimen Cyclegan.............................................................22 4.2.2 Eksperimen U-Cyclegan (CycleGAN + U-Net) ....................23 4.2.3 Eksperimen U-Cyclegan + SSIM Loss ..................................24 KESIMPULAN DAN SARAN 27 5.1 Kesimpulan .......................................................................................27 5.2 Saran ...................................................................................................29 DAFTAR PUSTAKA ...............................................................................................30 LAMPIRAN .............................................................................................................32 Universitas Indonesia vi DAFTAR GAMBAR Gambar 1.1 Contoh Translasi citra .............................................................................2 Gambar 2.1 Arsitektur VGGnet 16 ............................................................................6 Gambar 2.2 Blok pada resnet .....................................................................................7 Gambar 2.3 Arsitektur U-net ......................................................................................8 Gambar 2.4 Arsitektur GAN ......................................................................................9 Gambar 2.5 Arsitektur DCGAN ...............................................................................10 Gambar 3.1 Arsitektur Cyclegan ..............................................................................14 Gambar 3.2 Generator U-net dengan skip connections. ...........................................14 Gambar 3.3 Proses training pada CycleGAN ...........................................................18 Gambar 3.4 Model generator U-net yang diusulkan ................................................19 Gambar 3.5 Model Discriminator yang dipakai .......................................................19 Gambar 4.1 CUHK Face Sketch Dataset..................................................................21 Universitas Indonesia vii DAFTAR TABEL Tabel 3.1 Studi literatur Translasi Citra GAN...........................................................15 Tabel 3.2 Tabel skenario penelitian...........................................................................19 Universitas Indonesia viii DAFTAR LAMPIRAN Lampiran 1. Tabel Output Citra Hasil Translasi Citra Wajah Dengan CycleGAN ....... 32 Lampiran 2. Tabel Output Citra Hasil Translasi Citra Wajah Dengan U-CycleGAN ... 34 Lampiran 3. Tabel Output Citra Hasil Translasi Citra Wajah Dengan U-CycleGAN + SSIM-Loss................................................................................................ 36 Daftar isi dsb, kalau sudah selesai tolong dirapikan lagi. Masih belum rata Universitas Indonesia 1 BAB I PENDAHULUAN Pada bagian ini dijelaskan tentang latar belakang dilakukannya penelitian ini, tujuan dan manfaat dilakukannya penelitian, ruang lingkup penelitian, serta sistematika penulisan laporan penelitian. 1.1 Latar Belakang Machine learning ada karena keinginan untuk meniru kemampuan manusia yang dapat belajar mengenai sesuatu hal dengan sangat baik. Neural network merupakan salah satu metode dari machine learning yang melakukan pemodelan serupa dengan jaringan syaraf manusia dengan sejumlah node yang terkoneksi melalui jaringan-jaringan penghubung. Model generatif dari neural network telah menjadi trend dalam perkembangan machine learning pada saat ini, dengan tujuan berupa menghasilkan data “imitasi” yang asli (tidak sama persis dari data-data pembelajarannya). Pada tahun 2014, Ian Goodfellow et al., menciptakan sebuah framework baru dalam model generative. Framework ini menggunakan pendekatan Adversarial Model. Framework ini dinamakan Generative Adversarial Network (GAN). GAN terdiri dari dua network yang dilatih secara simultan dan berhubungan. Dua network itu adalah generator dan discriminator, yang mana keduanya saling berlawanan. Generator bertugas untuk meciptakan sebuah data palsu dan discriminator bertugas mengevaluasi atau membedakan data palsu dan data asli. Sejak pertama kali diciptakan, GAN menjadi topik penelitian yang mendapat banyak perhatian. Telah banyak framework yang mengadaptasi GAN dalam beberapa subyek penelitian, salah satunya adalah cross-domain atau domain translation atau domain transfer. Subyek ini fokus ke bagaimana GAN Universitas Indonesia font footer tidak seragam 2 dapat mentransformasi suatu data dalam suatu domain ke dalam domain yang berbeda. Salah satu kasus yang banyak dilalukan adalah image-translation atau translasi citra seperti transfer dari foto menjadi karikatur atau emoji. Kemudiancross-domain relations yakni misal transfer motif dari tas menjadi warna dari sepatu, translasi gambar antara zebra dengan kuda, antara foto dengan lukisan, dan juga translasi gambar pemandangan pada musim panas dengan musim dingin seperti yang diilustrasikan pada gambar 1.1. Gambar 1.1 Contoh Translasi Citra CycleGAN (Yan Zhu et al, 2017) adalah salah satu framework GAN yang diterapkan untuk translasi citra. Jika dibandingkan dengan metode-metode sebelumnya, CycleGAN memperlihatkan hasil yang sangat baik dalam mentranslasi citra. CycleGAN memiliki arsitektur yang kompleks sehingga proses optimasi modelnya cukup lama. Pix2pix (isola et al, 2017) juga merupakan GAN yang melakukan translasi citra. Pix2pix menghasilkan output yang cukup baik, walaupun tidak sebaik CycleGAN tetapi optimasi model Universitas Indonesia font footer tidak seragam 3 pix2pix lebih cepat. sebaiknya tidak menggunakan kata yang subjektif seperti sangat baik, cukup baik, dan semacamnya. Gunakan penjelasan yang terukur. Pada penelitian ini, akan dilakukan \modifikasi model CycleGAN untuk melakukan translasi citra sketsa wajah ke citra foto wajah. Kasus translasi ini diajukan karena diharapkan dapat sangat membantu untuk mendapatkan foto wajah seseorang jika kita mengetahui sketsa wajah seseorang. Dan juga dalam CycleGAN model yang didapat tidak hanya model yang mentranslasi citra sketsa wajah menjadi citra foto wajah, tetapi juga menghasilkan model yang melakukan proses sebaliknya. 1.2 Perumusan Masalah Berdasarkan uraian di atas, perumusan masalah dari penelitian ini yaitu: 1. Bagaimana cara meminimalkan waktu optimasi yang lama pada CycleGAN. 2. Model CycleGAN seperti apa yang stabil untuk melakukan translasi citra sketsa wajah dan citra foto wajah. 1.3 Tujuan Penelitian Tujuan penelitian ini adalah membuat framework yang dapat merekonstruksi citra wajah secara unsupervised dengan mengoptimasi dan membadingkan beberapa model Generative Adversarial Network untuk translasi citra. Sehingga masukan yang diharapkan dari framework ini adalah sebuah citra sketsa dan dapat menghasilkan keluaran berupa citra wajah yang valid atau jelas. 1.4 Batasan Masalah Batasan Masalah penelitian ini sebagai berikut: 1. Menggunakan dataset CUHK face sketch, yaitu data citra sketsa wajah yang memiliki ukuran sesuai dengan ukuran wajah asli, bukan karikatur. 2. Mengadopsi dari arsitektur Cyclegan. Universitas Indonesia font footer tidak seragam 4 3. Penelitian ini berfokus pada model translasi citra sketsa wajah menjaddi citra foto wajah. Universitas Indonesia font footer tidak seragam 5 BAB II LANDASAN TEORI Bab ini menjelaskan mengenai tinjauan pustaka meliputi teori serta pendekatan yang digunakan untuk menyelesaikan masalah domain transfer dari gambar sketsa ke citra wajah dengan neural network. 2.1 Pengolahan Citra Pengolahan citra atau image processing adalah suatu proses pengolahan citra dengan teknik tertentu, baik yang masukkan berupa citra dan yang menghasilkan keluaran yang berupa citra. Pengolahan citra berfungsi untuk meningkatkan kualitas citra, karena pada citra dengan kualitas tinggi akan didapatkan hasil yang terbaik, dan informasi yang penting juga bisa didapat dari kualitas citra yang jelas. Dan ada yang berfungsi mengekstrak informasi sehingga didapatkan informasi yang relevan dari citra. Pengolahan citra mengacu pada analisis kuantitatif dan/atau algoritma yang diterapkan pada data gambar digital. Pemrosesan gambar sekarang secara rutin digunakan oleh berbagai individu yang memiliki akses ke kamera digital dan computer. Dengan investasi minimum, seseorang dapat dengan mudah meningkatkan kontras, mendeteksi tepi, mengukur intensitas, dan menerapkan berbagai operasi matematika ke gambar. Pengenalan pola (pattern recognition) adalah ilmu yang mempelajari cara untuk mengenali dan menganalisis pola tertentu pada sekelompok obyek. Pola yang ingin dikenali harus memiliki ciri yang spesifik dan di dalam satu himpunan kelas yang sama, sehingga dapat membedakan dengan obyek dari kelas yang berbeda. Pengenalan wajah (face recognition) adalah sebuah proses mengenali wajah, dengan mencocokkan wajah masukkan dengan database wajah yang telah ada Universitas Indonesia 6 untuk menemukan hasil yang sesuai dengan masukkan sebelumnya. Sebelum dapat melakukan proses pengenalan wajah (face recognition), terlebih dahulu dilakukan proses pendeteksian wajah (face detection). Deteksi merupakan proses awal dalam pengenalan wajah. Pendeteksian wajah dikatakan baik jika proses tersebut mampu memberikan informasi tentang skala wajah, mendeteksi posisi bagian yang lain seperti mata, hidung, mulut dan garis wajah sehingga hasil yang didapatkan bisa memberikan informasi wajah yang lengkap dan utuh (Z. Li & K. Jain, 2011). 2.2 Neural Network Jaringan Syaraf Tiruan atau Artificial Neural Network (ANN) adalah teknik dalam Machine Learning yang terinspirasi dari jaringan syaraf manusia yang tersusun dari graf dan vertex. Penelitian pada neural network pada dewasa ini sangat berkembang pesat, pada saat ini neural network telah berkembang menjadi deep learning. Pada era deep learning saat ini selain model feed forward neural network (NN), model convolutional neural network (CNN) (LeCun, 1989) sudah banyak diterapkan dalam berbagai penelitian berkaitan dengan deep learning. Pada kasus klasifikasi citra, MLP kurang sesuai untuk digunakan karena tidak menyimpan informasi spasial dari data citra dan menganggap setiap piksel adalah fitur yang independen sehingga menghasilkan hasil yang kurang baik. Convolutional Neural Network merupakan metode deep learning yang memiliki hasil paling signifikan dalam melakukan pengenalan citra, ini dikarenakan CNN melakukan operasi pada citra dengan tidak menghilangkan informasi spasialnya. CNN melakukan operasi konvolusi yang dituliskan dalam formula berikut: ∞ ∞ 𝑓(𝑡) = (𝑥 ∗ ℎ)(𝑡) = ∫ 𝑥(𝑢)ℎ(𝑡 − 𝑢)𝑑𝑢 = ∑ 𝑥(𝑢)ℎ(𝑡 − 𝑢) −∞ 𝑢=−∞ Universitas Indonesia 7 Beberapa model-model yang stabil menggunakan CNN antara lain, VGGNet, Residual Network, dan U-net. VGGNet (Simonyan, 2014) terdiri dari beberapa lapisan yang seragam. VGGNet menggunakan layer CNN yang sederhana, yang biasanya memiliki ukuran kernel 3 × 3, beberapa kasus dalam large-size menggunakan kernel ukuran 5 x 5 atau 7 x 7. Pada VGGNet ini model seperti terbagi dalam beberapa blok, setiap blok memiliki dua atau tiga lapisan konvolusional yang ditumpuk dengan max-pooling pada unjung akhirnya untuk mengurangi ukuran volume. Pada blok terakhir menggunakan beberapa lapis feed forward NN yang kemudian diikuti oleh classifier softmax. Contoh model VGGNet ini diilustrasikan pada gambar 2.1. Salah satu kelemahan VGGNet adalah jaringan ini biasanya besar. Ini berisi sekitar 160M (maksudnya 160 juta?, ya ditulis saja 160 juta) parameter. Sebagian besar parameter dikonsumsi dalam lapisan fc (fully conected). Gambar 2. 1 Arsitektur VGGnet dengan 13 lapisan CNN Deep residual network (Kaiming He, 2015) atau yang lebih dikenal resnet memiliki arsitektur berupa beberapa tumpukan blok residual network. Angka pada nama resnet-30 atau resnet-50 adalah jumlah blok residu pada arsitektur resnet. Blok residu ini identik dengan persamaan residu, yakni 𝑦 = 𝐹(𝑥) + 𝑥, dimana 𝐹(𝑥) adalah proses kovolusi.. Berikut adalah contoh satu blok resnet dengan 2 lapisan CNN dan 3 lapisan CNN: Universitas Indonesia 8 Gambar 2. 2 Blok pada resnet U-net (Ronneberger, 2015) memiliki konsep yang mirip dengan resnet dimana tetap menerapakan perhitungan residualnya, namun hanya ada 1 blok tidak seperti resnet yang memiliki beberapa blok. U-net ini dinamakan dari bentuk arsitekturnya yang membentuk huruf “U”. kedalaman dari arsitektur ini dapat dilihat dari seberapa dalam residual yang dihitung. Seperti pada gambar 2.3. U-net pada dasarnya adalah sebuah pasangan encoder-decoder pada autoencoder, tetapi ditambahkan skip-connection pada setiap level pasangan encoder-decoder yang setara. Universitas Indonesia 9 Gambar 2. 3 Arsitektur U-net 2.3 Generative Adversarial Network Generative Adversarial Network atau GAN (Goodfellow, 2014), adalah model generative yang pendekatannya berdasarkan kepada differentiable generator network. Differentiable generator network adalah sebuah model generatif yang mentransformasi sampel dari variabel laten z ke sampel x menggunakan fungsi differentiable (yang dapat diturunkan) 𝑔(𝑧; 𝜃 (𝑔) )(Goodfellow, 2016). GAN merupakan sebuah kombinasi dari dua buah neural network, yaitu generator network dan discriminator network yang bekerja beriringan dan saling mempengaruhi. GAN berbasis kepada sebuah skenario teori permainan dimana Universitas Indonesia 10 generator network harus bersaing dan bermusuhan dengan discriminator network (Goodfellow, 2016) (gambar 2.4.). Generator berfungsi untuk mensintesis sebuah data baru yang didapatkan dari menyamarkan sebuah noise menjadi distribusi data yang diinginkan. Data yang dihasilkan ini akan dievaluasi oleh discriminator, proses ini akan dilakukan terus menerus sampai generator menghasilkan data yang oleh discriminator tidak dapat mengevaluasi lagi datanya atau membingungkan discriminator. Dari proses ini sehingga didapatkan sebuah data baru yang mirip dengan distribusi aslinya. Proses ini didasarkan pada pendekatan minmax, dimana proses ini bertujuan untuk meminimalkan kesalahan pada generator dan memaksimalkan kesalahan pada discriminator sehingga mendapatkan sebuah titik konvengensi atau dapat disebut titik equilibrium. Fungsi GAN dapat diformulakan sebagai berikut: 𝐺 = 𝑎𝑟𝑔𝑚𝑖𝑛𝑚𝑎𝑥𝑉(𝐺, 𝐷) 𝐺 𝐷 Dimana, 𝑉(𝐺, 𝐷) = 𝐸𝑥 𝑝𝑑𝑎𝑡𝑎(𝑥) 𝑙𝑜𝑔𝐷(𝑥) + 𝐸𝑧 𝑝𝑧(𝑧) 𝑙𝑜𝑔 (1 − 𝐷(𝐺(𝑧))) Motivasi utama dari desain model generatif GAN adalah tidak perlunya perkiraan atau asumsi (approximation) awal yang diperlukan sebelum proses learning GAN dilakukan. Karena saat 𝑚𝑎𝑥𝑉(𝐺, 𝐷) menjadi fungsi konvex pada 𝐷 𝜃(𝑔), maka proses learning ini akan dijamin konvergen dan konsisten secara asimptotik (Goodfellow et al. 2016). Universitas Indonesia 11 Gambar 2. 4 Arsitektur GAN Salah satu varian dari GAN yang terkenal adalah DCGAN (Deep Convolutional GAN), sebuah arsitektur varian dari GAN yang disusun oleh convolutional (dan deconvolutional) neural network sebagai generator dan discriminator (Radford, 2015). Model GAN ini banyak dijadikan rujukan dari turunan model GAN yang lain, karena terbukti dapat menghasilkan citra yang baik. Pada eksperimen dari Radford et.al. membuktikan bahwa representasi yang dipelajari oleh GAN sangat berguna dalam memodifikasi output dari GAN tersebut. Hal ini ditemukan melalui berbagai eksperimen DCGAN dengan melakukan berbagai modifikasi terhadap noise vector yang diterima sebagai input oleh generator (Radford, 2015) (gambar 2.5). Gambar 2. 5 Arsitektur DCGAN Universitas Indonesia 12 2.4 SSIM SSIM (Structural Similarity) adalah suatu metode dalam pengukuran perbandingan dua buah citra dengan membandingkan luminance, contrast, dan structure. SSIM diperkenalkan oleh Zhou Wang et. al. pada tahun 2004, dalam Image Quality Assessment: From Error Visibility to Structural Similarity. Dalam metode ini tidak membandingkan nilai bit dari citra pixel secara langsung saja. Metode ini membandingkan komponen dalam sistem visual manusia. Masing-masing komponen SSIM diformulakan sebagai berikut: 𝑆𝑆𝐼𝑀(𝑥, 𝑦) = 𝑓(, , ) Dengan 𝑙(𝑥, 𝑦) = 2𝜇𝑥 𝜇𝑦 + 𝑐1 𝜇𝑥2 + 𝜇𝑦2 + 𝑐1 𝑐(𝑥, 𝑦) = 2𝜎𝑥 𝜎𝑦 + 𝑐2 𝜎𝑥2 + 𝜎𝑦2 + 𝑐2 𝑠(𝑥, 𝑦) = 𝜎𝑥𝑦 + 𝑐3 𝜎𝑥 𝜎𝑦 + 𝑐3 Yang dikombinasikan menjadi: 𝑆𝑆𝐼𝑀(𝑥, 𝑦) = [𝑙(𝑥, 𝑦)]𝛼 , [𝑐(𝑥, 𝑦)]𝛽 , Dimana α > 0, β > 0, dan γ > 0, merupakan parameter yang disesuaikan tergantung perbandingan masing-masing komponen, lalu untuk sederhananya, α = β = γ =1 dan 𝑐3 = 𝑐2 2 . Sehingga formula akhirnya menjadi: 𝑆𝑆𝐼𝑀(𝑥, 𝑦) = (2𝜇𝑥 𝜇𝑦 + 𝑐1 )(2𝜎𝑥𝑦 + 𝑐2 ) (𝜇𝑥2 + 𝜇𝑦2 + 𝑐1 )(𝜎𝑥2 + 𝜎𝑦2 + 𝑐2 ) Nilai dari indeks SSIM ini berada diantara 0 dan 1. Dimana jika bernilai 0, menyatakan kedua citra x dan y berbeda dan tidak memiliki kemiripan sama sekali, sedangkan jika bernilai 1, menyatakan cita x dan y adalah dua buah citra identik yang sama. Universitas Indonesia 13 Dengan mengacu pada nilai SSIM indeks, SSIM Loss didapatkan dari modifikasi nilai SSIM indeks, untuk mencari loss function dari proses pelatihan neural network, yang mana nilai 0 menyatakan tidak memiliki error pada hasil rekonstruksi. SSIM Loss didefinisikan sebagai berikut: 𝑙𝑆𝑆𝐼𝑀 = 1 − 𝑆𝑆𝐼𝑀(𝑃𝑟𝑒𝑑𝑖𝑘𝑠𝑖, 𝑇𝑎𝑟𝑔𝑒𝑡) SSIM Loss akan digunakan untuk menghitung reconstruction loss dari cycleGAN. Reconstruction loss adalah tingkat kesalahan yang dihasilkan dari hasil rekonstruksi balik dari proses cycle. Masukan untuk bab 2: ukuran font utk formula2 diperbesar (14) Universitas Indonesia 14 BAB III GENERATIVE ADVERSARIAL NETWORK UNTUK TRANSLASI CITRA Bab ini membahas penelitian-penelitian sebelumnya yang berhubungan dengan translasi citra. Isi yang ditekankan dalam pembahasan ini adalah yang menggunakan metode konvensional dan metode Generative Adversarial Network yang lebih modern. 3.1 Translasi Citra dengan metode Konvensional Metode konvensional adalah pendekatan yang belum menggunakan metode deep learning atau masih menggunakan metode lama dalam teknik yang ada di machine learning. Pada pendekatan ini sebelumnya ada beragam kasus seperti image denoising, dan style transfer. Xiaotian Wang et al. pada penelitiannya menggunakan metode Directional Lifting untuk melakukan image denoising (Xiaotian Wang et al, 2010). Image denoising adalah proses peningkatan kualitas gambar dari citra yang banyak noise menjadi citra yang lebih halus atau lebih baik. Pada penelitian ini diceritakan ada ketidak-efisienan dari metode ADL (Adaptive Directional Lifting) sehingga dikemukankan metode perbaikan dari sebelumnya yaitu TI-DL (achieve translation invariant directional lifting), untuk kasus image denoising. Pada penelitian Fujiwara tentang image restoration yaitu perbaikan citra dengan menghilangkan blur dan noise yang ada pada citra (H. Fujiwara, 2006). Pada penelitian ini metode yang digunakan adalah wavelet transform. Dalam translasi citra, style transfer salah satu kasus yang sedang banyak mendapatkan perhatian. Salah satunya adalah mentransfer style warna pada sebuah foto ke dalam foto lainnya (H. Zhao, 2009). Teknik yang digunakan pada penelitian ini adalah oRGB color space dan histogram matching. Universitas Indonesia 15 3.2 Translasi citra dengan GAN Dengan berkembangnya penelitian pada image processing, salah satu subyek yang mulai diperhatikan adalah translasi citra. Translasi citra sendiri adalah proses mengubah atau mentransformasi suatu domain citra menjadi domain yang lainnya maupun sebaliknya, seperti citra hitam putih ditranslasi menjadi citra berwarna RGB. Pada dasarnya translasi citra tidak memiliki perbedaan dengan mensintesis citra, oleh karena itu beberapa peneliti mencoba mengembangkan GAN pada kasus translasi citra, tidak hanya berfokus pada mensintesis data baru. Tetapi pada perkembanga penelitian saat ini, banyak yang memodifikasi cara kerja GAN yang awalnya adalah mensintesis data dari suatu distribusi normal yang acak menjadi mensintesis data baru dari data lain yang sama tetapi dalam domain berbeda misalkan mensintesis gambar berwarna dari gambar hitam putih, mensintesis citra wajah dari sketsa, atau mensintesis gambar dari data teks. Penelitian yang berkaitan dengan gan dalam domain transfer adalah pix2pix, cyclegan, dan domain transfer network, semuanya melakukan sebuah translasi gambar dari domain gambar lain, sebagai contoh pada cyclegan mentranslasi gambar kuda menjadi zebra dan sebaliknya. Dalam eksperimen cyclegan (Yan Zhu dan Park, 2017) dilakukan proses translasi gambar ke gambar, dengan menggunakan arsitektur dari resnet pada generator GAN, dan menggabungkan dua buah arsitektur GAN ini dimana keluaran pada GAN pertama menjadi masukan pada GAN kedua, dua GAN ini diperlukan untuk melakukan rekonstruksi ulang pada citra masukan sehingga keluaran pada GAN kedua harus sama dengan GAN kedua, dan dihitung untuk meminimalkan kesalahan rekonstruksinya yang disebut dengan cycleloss. Cycle Loss ini diformulakan sebagai berikut: 𝐿𝑐𝑦𝑐 (𝐺, 𝐹) = 𝐸𝑥 𝑝𝑑𝑎𝑡𝑎(𝑥) [‖𝐹(𝐺(𝑥)) − 𝑥‖1 ] + 𝐸𝑦 𝑝𝑑𝑎𝑡𝑎(𝑦) [‖𝐺(𝐹(𝑦)) − 𝑦‖1 ] Universitas Indonesia 16 Dimana 𝑥 → 𝐺(𝑥) → 𝐹(𝐺(𝑥)) ≈ 𝑥 𝑦 → 𝐹(𝑦) → 𝐺(𝐹(𝑦)) ≈ 𝑦 Gambar 3.1 Arsitektur Cyclegan Pix2pix (Isola, 2017) menggunakan arsitektur dari U-net pada generator GAN. Pix2pix Memiliki hasil yang cukup baik dalam mentranlasi gambar. Dalam penelitian ini U-net adalah sebuah autoencoder biasa dengan ditambahkan skip connections (gambar 2.7.). Gambar 3.2 Generator U-net dengan skip connections. Pix2pix dan cyclegan telah menjadi stade-of-the-art dari image translation dengan arsitektur GAN. Universitas Indonesia 17 Secara keseluruhan studi literatur tentang translasi citra dirangkum dalam tabel 3.1. Tabel 3.1 Studi literatur Translasi Citra GAN Referensi Image-to-Image Translation with Conditional Adversarial Networks (Isola et al. 2017) Unpaired Imageto-Image Translation Using Cycle-Consistent Adversarial Networks (Zhu et al. 2017) 3.3 Arsitektur model Generator : Generator DCGAN (Radford et al. 2016) dengan skip connection / U-net (Ronneberger et al. 2015) Discriminator : PatchGAN Metode eksperimen Kekuatan & Kelemahan Train Kekuatan - original GAN optimization Supervised, sehingga ada ground truth (Goodfellow et al. 2014) Generator : Train DCGAN + Res block - Cycle training A – B – A’ (Johnson et al. 2016) - L1 identity loss - Reconstruction loss (A dan A’) Discriminator : PatchGAN 70x70 (Isola et al. 2017) Masih memiliki kemungkinan overfitting pada data training. Kekuatan Pelatihan secara unsupervised Kelemahan Training memakan waktu lama Translasi citra antara Sketsa dan Foto Translasi citra antara sketsa dan foto yang menjadi topik pokok dalam penelitian ini. Translasi citra antara sketsa dan foto memang cukup menarik untuk dilakukan, karena sketsa wajah dan foto wajah memiliki komponen yang harus diperhatikan cukup detail. Beberapa penelitian sebelumnya tentang topik terkait ini diantaranya, mensintesis sketsa wajah dari foto (X. Wang & X. Tang, 2009). Penelitian ini menggunakan teknik patch matching, dimana membagi sebuah citra foto menjadi Universitas Indonesia 18 beberapa region atau blok, lalu setiap region ini dicocokan dengan region-region pada citra sketsa. Pada proses translasinya menggunakan metode markov network. Pada penelitian selanjutnya, metode SNS-SRE digunakan untuk mentranslasi antara sketsa dan foto (X. Gao et al., 2012). Pada penelitian ini tidak hanya melakukan proses translasi dari foto menjadi sketsa, tetapi juga sebaliknya. Metode SNS-SRE ini digunakan untuk mengekstrak informasi dari foto dan sketsa yang nantinya akan digunakan untuk proses translasi. Pada Universitas Indonesia sendiri juga telah ada penelitian terkait translasi citra sketsa dan foto. Salah satunya adalah pewarnaan pada citra sketsa untuk menghasilkan citra foto (V. K. Putri & M. I. Fanany, 2017). Pada penelitian ini telah digunakan metode deep learning, yaitu deep convolutional neural network untuk mensistesi citra foto wajah. Output yang dihasilkan sudah cukup baik yaitu mendapatkan rata-rata SSIM score sebesar 0.66. 3.4 Fokus penelitian dan kontribusi Penelitian terkait translasi citra antara sketsa wajah dan foto wajah telah banyak dilakukan. Dari beberapa penelitian sebelumnya proses translasi citra ini masih membawa terlalu banyak informasi dari domain asalnya. Pada proses translasi dari foto menjadi sketsa misalnya, citra sketsa yang dihasilkan masih menyerupai seperti foto yang ditransformasi menjadi citra grayscale. Salah satu pendekatan terbaru adalah Generative Adversarial Network. Dari beberapa literatur, performa GAN dalam proses translasi citra cukup memuaskan. Seperti Pix2pix dan CycleGAN telah menjadi acuan dalam pengembangan GAN dalam proses translasi citra. Berdasarkan studi literatur pada penelitian sebelumnya, kombinasi arsitektur CycleGAN dan arsitektur U-NET yang ada pada Pix2pix dapat dimanfaatkan sebagai solusi untuk mentranslasi citra antara sketsa dan foto. Dari Universitas Indonesia 19 metode ini diharapkan dapat menghasilkan model yang cukup baik, untuk mentranslasi dari citra sketsa ke foto, maupun dari foto ke sketsa. 3.5 U-CycleGAN Ada tiga metode yang akan digunakan dan dibandingkan yaitu CycleGAN, CycleGAN dengan generator U-net (U-CycleGAN), dan U-CycleGAN dengan menggunakan SSIM-Loss untuk menghitung reconstruction error. Ada beberapa pertimbangan mengapa penelitian ini menggunakan pendekatan GAN, arsitektur U-net, dan SSIM-Loss: (1) Hasil penelitian tentang translasi citra antara sketsa dan foto masih belum sempurna. (2) Arsitektur U-net dapat menangani citra dengan resolusi tinggi dan komputasi yang cukup cepat sehingga diharapkan pemanfaatan metode ini dapat menjadi solusi dalam meningkatkan kualitas citra yang lebih baik dan lebih cepat. U-net memiliki skip-connection untuk setiap bagian encoder dan decoder sehingga dengan adanya skip-connection ini bisa mempertahankan informasi yang relevan antar domain, dan juga dapat mereduksi noise-noise yang tercipta dari proses encoder-decoder. (3) Cycle proses yang ada pada cyclegan menghasilkan sebuah reconstruction loss atau cycleloss yang didapat dari citra rekonstruksi dan citra input. Reconstruction loss atau loss function ini dalam beberapa literatur neural network dapat kita hitung dengan beberapa metode, diataranya: MSE (Mean Square Error), MAE (Mean Absolute Error), SSIM (Structural Similarity Index) dan lain-lain. Structural Similarity Index (SSIM) merupakan metode yang diusulkan oleh Wang et al. untuk mengukur kualitas citra dengan cara membandingkan dua buah citra seperti membandingkan citra asli dan citra hasil sintetis, atau citra asli dengan citra hasil denoising (Wang et al., 2004). Ada 3 variabel utama yang digunakan untuk mengukur SSIM yaitu luminance, contrast, dan structural comparisons. SSIM lebih cocok untuk menghitung reconstruction loss karena akan mendapatkan error yang lebih teliti. Universitas Indonesia 20 Gambar 3. 3 Proses training pada CycleGAN Model generator yang ditunjukkan pada Gambar 3.3 menggunakan arsitektur UNET. Generator A2B akan menerima input berupa citra sketsa wajah (A) yang diambil secara acak. Generator A2B akan menghasilkan citra translasi berupa foto wajah (B’). Generator B2A akan menerima input berupa citra Foto wajah (B) yang diambil secara acak. Generator B2A akan menghasilkan citra translasi berupa sketsa wajah (A’). Discriminator D1 bertugas sebagai pembeda antara citra foto wajah asli (B) dengan hasil sintesis (B’). Discriminator D2 bertugas sebagai pembeda antara citra sketsa wajah asli (A) dengan hasil sintesis (A’). Untuk menghasilkan reconstruction loss masing-masing hasil sintesis translasi akan ditranslasikan dengan generator kebalikannya sehingga menghasilkan citra rekonstruksinya. Universitas Indonesia 21 Gambar 3. 4 Model generator U-net yang diusulkan Setiap discriminator menggunakan arsitektur dari discriminator PatchGAN dengan keluaran berupa 8 node. Jika citra real yang akan dinotasikan menjadi (1, 1, 1, 1, 1, 1, 1, 1) dan citra fake akan dinotasikan menjadi (0, 0, 0, 0, 0, 0, 0, 0). Gambar 3. 5 Model Discriminator yang dipakai Skenario eksperimen yang dilakukan masih arsitektur CycleGAN, adapun parameter yang diubah sebagai pembanding antar skenario adalah sebagai berikut: Tabel 3.2 Tabel skenario penelitian No Arsitektur 1 2 3 Generator Discriminator Resnet-6 CycleGAN U-net PatchGAN Reconstruction Loss MAE SSIM-Loss Universitas Indonesia 22 BAB IV EKSPERIMEN, HASIL, DAN ANALISIS Bab ini membahas tentang desain eksperimen seperti dataset dan model evaluasi yang digunakan, hasil eksperimen serta hasil uji evaluasi terhadap metode yang diusulkan dengan menggunakan beberapa metode pengukuran. Penelitian ini dikembangkan dengan Bahasa pemrograman Python serta library pendukung seperti Keras, Tensorflow dan Skimage. Adapun perangkat keras yang digunakan pada penelitian ini terdiri dari GPU NVIDIA MSI GeForce GTX 1050 ti, processor intel(R) Core™ i77700K CPU, memory 16 GB, dan sistem operasi Windows 10 64 bit. 4.1 Desain Eksperimen Penelitian ini dilakukan dengan melatih model neural network menggunakan arsitektur CycleGAN dengan skenario penelitian adalah CycleGAN, U-CycleGAN dan U-CycleGAN+SSIM-Loss. Model generator pada U-CycleGAN menggunakan arsitektur U-NET untuk membangkitkan citra tiruan. Proses pelatihan bertujuan mendapatkan model yang optimal untuk proses translasi antara citra sketsa wajah dan citra foto wajah. 4.1.1 Dataset Data yang akan digunakan adalah berupa citra sketsa wajah sebagai masukan dan memiliki keluaran kerupa citra wajah. Sehingga dataset yang diperlukan adalah pasangan data sketsa dan foto. Dataset citra ini (Gambar 3.1.) didapatkan dari Chinese University of Hong Kong, CUHK face sketch dataset. Dataset ini terdiri dari 188 pasang data yang akan dibagi menjadi, 100 data latih, 88 pasang data uji (X. Wang & X. Tang, 2009). Dataset sketsa dibuat oleh pelukis berdasarkan foto yang diambil dengan pose frontal, dengan kondisi pencahayaan normal dan ekspresi netral. Universitas Indonesia 23 Gambar 4. 1 CUHK Face Sketch Dataset 4.1.2 Evaluasi Metode evaluasi yang digunakan dalam menggukur performa model yang dihasilkan adalah SSIM (Structural Similarity Index). Structural Similarity Index (SSIM) merupakan metode untuk mengukur kualitas citra dengan cara membandingkan dua buah citra. 𝑆𝑆𝐼𝑀(𝑥, 𝑦) = (2𝜇𝑥 𝜇𝑦 + 𝑐1 )(2𝜎𝑥𝑦 + 𝑐2 ) (𝜇𝑥2 + 𝜇𝑦2 + 𝑐1 )(𝜎𝑥2 + 𝜎𝑦2 + 𝑐2 ) Adapun properti dari SSIM adalah sebagai berikut: 1. Symmetry: 𝑆𝑆𝐼𝑀(𝑥, 𝑦) = 𝑆𝑆𝐼𝑀(𝑦, 𝑥). Hal ini menunjukkan bahwa nilai SSIM antara 2 buah citra seharusnya tidak berubah jika urutan citra tersebut ditukar. 2. Boundedness: 𝑆𝑆𝐼𝑀(𝑥, 𝑦) ≤ 1 3. Unique maximum: 𝑆𝑆𝐼𝑀(𝑥, 𝑦) = 1 jika dan hanya jika 𝑥 = 𝑦 . Nilai maksimum 1 menunjukkan jika dua buah citra tersebut sama atau identik. Universitas Indonesia 24 4.2 Eksperimen Eksperimen diujikan menggunakan 3 model yaitu CycleGAN, UCycleGAN dan U-CGAN + SSIM-Loss. Kemudian hasil ketiganya akan dibandingkan dengan mengukur seberapa realistis kedua model dapat mensintesis suatu citra wajah dari domain sketsa dan foto. Pengembanga model dari CycleGAN menjadi U-CycleGAN karena perubahan pada generator model GAN dari Resnet-6 menjadi U-net hal ini untuk mengatasi masalah waktu training pada CycleGAN yang lama dan U-net memiliki waktu training yang lebih cepat dari Resnet. Lalu diketahui sebelumnya bahwa pengembangan UCycleGAN menjadi U-CycleGAN + SSIM-Loss ada pada penambahan fungsi loss yaitu reconstruction error pada proses cycle dalam arsitektur CycleGAN menghitung error antara citra input dengan citra rekonstruksi. Dataset dibagi menjadi train set, dan test set masing masing 100 dan 88 pasang. Model dilatih menggunakan algoritma Adam Optimizer dengan learning rate 0.0002 dan decay rate 0.5, jumlah epoch 500, dan batch size 1. 4.2.1 Eksperimen CycleGAN Pada skema ini, digunakan model dari CycleGAN standard (Yan Zhu et al, 2017). Dengan mencoba melatih dataset yang telah dikumpulkan. Sebagaimana yang telah dijelaskan, CycleGAN, proses yang dilakukan adalah proses translasi dari domain A ke domain B lalu kembali lagi ke domain A. Parameter bobot untuk 𝜆𝐺𝐴𝑁 diset 1 untuk fungsi loss pada adversarial, dan 𝜆𝑐𝑦𝑐 diset 10 untuk error rekonstruksi (Yan Zhu, et al., 2017). Proses pelatihan disini membutuhkan waktu 9 jam 48 menit 25 detik selama 500 epoch. Performa citra hasil rekonstruksi yang dihasilkan dapat dilihat menggunakan skor SSIM. Dari proses training ini dihasilkan dua model Universitas Indonesia 25 yaitu generator A ke B dan generator B ke A. Pada proses training didapatkan nilai reconstruction loss yang paling minimum adalah 0.048520 pada epoch ke 431. Hal ini menunjukkan bahwa citra tiruan masih mempertahankan informasi identitas dari subjek. Pada proses pengujian model CycleGAN, dibagi menjadi 2, yaitu pengujian dengan proses translasi sketsa – foto – sketsa, dan translasi foto – sketsa – foto. Pengujian pertama didapatkan SSIM, dengan skor tertinggi adalah 0.8916, sedangkan skor terendah adalah 0.7627 dan rata-rata skor adalah 0.8229 dari keseluruhan data testing. Proses pengujian yang kedua didapatkan SSIM, dengan skor tertinggi adalah 0.7395, skor terendah 0.5472 dan rata-rata skor adalah 0.6752 dari keseluruhan data testing. Dari hasil eksperimen dapat dilihat secara visual hasil pada prediksi atau translasi masih ada yang menghasilkan citra yang jelek. Untuk citra pada hasil reconstruksi telah menghasilkan citra yang cukup baik dan juga diperlihatkan dari skor SSIM untuk citra rekonstruksi cukup baik yakni 0.8247 dan 0.6759. Jadi untuk eksperimen pertama ini proses cycle dari CycleGAN telah dilakukan dengan cukup baik, namun yang kurang adalah pada bagian generator translasi masih belum menghasilkan citra yang baik. Dari proses translasi ini dapat dilihat pula, model masih belum bisa membedakan warna rambut jika mentranslasi dari sketsa ke foto. Citra rekonstruksi yang dihasilkan masih menghasilkan muka yang usianya berbeda, seperti menghasilkan wajah yang sedikit terlihat lebih muda. 4.2.2 Eksperimen U-CycleGAN (CycleGAN + U-net) Pada skema ini, model CycleGAN dimodifikasi dengan mengganti model generator dengan model generator milik u-net. Dikarenakan U-net tidak sekompleks model resnet, diharapkan dengan skema pelatihan ini Universitas Indonesia 26 dapat menghasilkan pelatihan atau optimasi model lebih cepat dari model Cyclegan dengan resnet. Proses pelatihan disini membutuhkan waktu 2 jam 18 menit 56 detik. Pada proses training didapatkan nilai reconstruction loss yang paling minimum adalah 0.049838 pada epoch ke 355. Hal ini menunjukan pada proses training telah dapat mengurangi waktu training secara signifikan dari model CycleGAN dengan generator resnet. Untuk performa loss pun tidak menghasilkan nilai yang berbeda sangat jauh. Pada pengujian performa model CycleGAN hasil training terhadap data uji yang belum pernah dipakai untuk proses training. Proses pengujian yang pertama dengan alur translasi sketsa – foto – sketsa, menghasilkan SSIM dengan skor tertinggi adalah 0.8596, skor terendah adalah 0.6695, dan rata-rata skor adalah 0.7782. Skor hasil pengujian pertama ini mengalami penurunan performa jika dibandinng pada eksperimen sebelumnya yang memiliki rata-rata 0.8229, jadi model mengalami penurunan performa sebesar 0.0469. Sedangkan proses pengujian yang kedua dengan alur translasi foto – sketsa – foto, menghasilkan SSIM dengan skor tertinggi adalah 0.7790, skor terendah adalah 0.6123, dan rata-rata skor adalah 0.7050. Skor pada hasil pengujian kedua mengalami peningkatan dibandingkan eksperimen sebelumnya yang rata-ratanya adalah 0.6752, jadi model mengalami peningkatan sebesar 0.0298. Dari hasil eksperimen dapat dilihat secara visual hasil pada eskperimen ini mengalami penuruan performa dibanding eksperimen yang sebelumnya. Hal ini juga dapat dilihat pada citra input dan citra rekonstruksi yang lebih blur dari aslinya. Walaupun pada proses pengujian yang kedua mengalami peningkatan rata-rata skor SSIM. Universitas Indonesia 27 4.2.3 Eksperimen U-CycleGAN + SSIM Loss Penambahan SSIM-Loss pada model U-CycleGAN diharapkan memberikan output citra yang lebih realistis dibandingkan U-CycleGAN dikarenakan perhitungan error dilakukan dengan melibatkan 3 variabel utama yang digunakan yaitu luminance, contrast, dan structural comparisons. Parameter bobot untuk 𝜆𝐺𝐴𝑁 diset 1 untuk fungsi loss pada adversarial, dan 𝜆𝑐𝑦𝑐 diset 10 untuk error rekonstruksi. Proses pelatihan disini membutuhkan waktu 2 jam 40 menit 23 detik. Pada proses training didapatkan nilai reconstruction loss yang paling minimum adalah 0.050741 pada epoch ke 471. Pada eksperimen ini terjadi peningkatan waktu training jika dibandingkan dengan eksperimen yang kedua, tetapi jika dibandingkan dengan eksperimen pertama masih jauh lebih cepat. Pada proses pengujian model U-CycleGAN dengan SSIM-Loss, dibagi menjadi 2, yaitu pengujian dengan proses translasi sketsa – foto – sketsa, dan translasi foto – sketsa – foto. Pengujian pertama didapatkan SSIM, dengan skor tertinggi adalah 0.9290, sedangkan skor terendah adalah 0.8363 dan rata-rata skor adalah 0.8847 dari keseluruhan data testing. Pada skema pengujian pertama ini, model U-CycleGAN menghasilkan data paling tinggi disbanding dua model yang lain. Proses pengujian yang kedua didapatkan SSIM, dengan skor tertinggi adalah 0.7447, skor terendah 0.6049 dan rata-rata skor adalah 0.6865 dari keseluruhan data testing. Jika dibandingkan dengan model pertama yaitu CycleGAN, eksperimen pada model ini menghasilkan model lebih baik, tetapi dibandingkan dengan model yang kedua masih sedikit dibawah performa model eksperimen kedua. Universitas Indonesia 28 Dengan demikian masalah training lama dan kestabilan generator sketsa ke foto dengan generator foto ke sketsa telah teratasi dan hasil yang diberikan dari model ini sudah cukup memuaskan. Pada skema ini, diharapkan dapat menghasilkan model yang lebih baik dikarenakan telah menggunakan SSIM loss dan juga menggunakan waktu optimasi atau pelatihan yang lebih singkat dari CycleGAN resnet. Untuk pada eksperimen yang ketiga ini telah dijalankan sebanyak 8 kali, untuk mengetahui kestablian model untuk menghasilkan model yang konsisten. Tabel 4. 4 Percobaan CycleGAN U-net + SSIM Loss Percobaan 1 2 3 4 5 Reconstruction Loss 0.044487 0.042575 0.054491 0.049936 0.051214 Waktu training 2:43:42 2:43:57 2:46:28 2:52:13 2:39:55 6 7 8 𝝁 0.051913 0.050741 0.049587 0.04942 2:40:28 2:40:23 2:30:38 𝝈 0.003683609 Dari hasil pada table 4.4 didapatkan nilai rata-rata dari reconstruction loss atau SSIM Loss nya adalah 0.04942 dengan simpangan bakunya adalah 0.00368., dengan demikian model ini telah menghasilkan model yang stabil dan tidak berubah-ubah. Universitas Indonesia 29 BAB V KESIMPULAN DAN SARAN Bab ini menjelaskan kesimpulan dilakukannya penelitian, menjabarkan apakah tujuan penelitian tercapai, serta saran arah penelitian ke depan. 5.1 Kesimpulan Model-model generative dengan framework GAN (Generative Adversarial Network) telah banyak dilakukan. Tetapi dalam kasus image-to-image translasi, atau translasi antar domain citra masih belum banyak hasil yang baik. Sejauh ini sudah ada dua model yang sudah menjadi state of the art dalam translasi antar citra dalam framework GAN. Kedua model itu adalah CycleGAN dan Pix2pix. Cyclegan lebih unggul dari pix2pix, karena proses training yang secara cyclic sehingga hasil translasi tidak melenceng dari yang diharapkan. Pada penelitian ini telah dilakukan percobaan-percobaan untuk mendapatkan model yang optimal untuk melakukan translasi citra sketsa wajah dan citra foto wajah. Percobaan-percobaan yang dilakukan antara lain: 1. Percobaan CycleGAN dengan Generator resnet-6. 2. Percobaan CycleGAN dengan Generator U-net. 3. Percobaan CycleGAN dengan Generator U-net dan SSIM Loss pada Reconstruction Loss. Dengan melakukan percobaan-perobaan tersebut, didapatkan point point untuk masing-masing percobaan, Percobaan 1: 1. Proses training sangat lama yaitu 9 jam 48 menit. Universitas Indonesia 30 2. Model generator yang dihasilkan belum seimbang, diperlihatkan dengan perbedaan hasil yang didapat pada translasi sketsa-foto-sketsa dengan fotosketsa-foto. Percobaan 2: 1. Proses Training menjadi lebih cepat, yaitu 2 jam 18 menit. 2. Model generator yang dihasilkan belum memuaskan, tidak jauh berbeda dengan percobaan sebelumnya. Percobaan 3: 1. Waktu trainingnya adalah 2 jam 40 menit sedikit lebih lambat dari percobaan 2 tetapi masih jauh lebih cepat dari percobaan 1. 2. Skema pelatihan sketsa-foto-sketsa menghasilkan hasil yang baik, begitu juga untuk foto-sketsa-foto sudah cukup memuaskan. Dari ketiga percobaan ini, diperlihat sketsa-foto-sketsa memiliki nilai yang lebih baik dibandingkan foto-sketsa-foto. Hal ini dikarenakan perbandingan foto dengan foto memiliki fitur yang lebih kompleks dibandingkan perbandingan sketsa dengan sketsa. Karena komponen perbandingan pada SSIM adalah Contrast, Luminance dan Structure, maka wajar jika nilai SSIM perbanding foto dengan foto lebih kecil dari sketsa dan sketsa. Secara umum dapat disimpulkan sebagai berikut: 1. Generator U-net membantu proses taining CycleGAN menjadi lebih cepat, tetapi tetap memberikan hasil yang cukup baik. 2. SSIM Loss membantu mengoptimasi model Cycle-reconstruction menjadi lebih baik. Universitas Indonesia 31 5.2 Saran Saran untuk penelitian berikutnya adalah membuat dataset untuk translasi citra wajah dengan data dari etnis suku-suku di Indonesia. Dikarena struktur wajah setiap etnis-etnis di dunia berbeda maka diperlukan data-data yang berbeda pula. Dan juga dapat melakukan penelitian translasi citra wajah dengan domain lain, seperti domain teks, dalam hal ini ciri-ciri wajah seseorang. Jadi bagaimana menghasilkan citra wajah atau citra sketsa wajah dari data berupa teks ciri-ciri wajah. Universitas Indonesia 32 DAFTAR PUSTAKA Creswell, A. et al., 2018. Generative Adversarial Networks: An Overview. IEEE Signal Processing Magazine, 35(1), pp.53–65. Available at: http://arxiv.org/abs/1710.07035. Goodfellow, I. et. al., 2014. Generative Adversarial Networks. In Advances in Neural Information Processing Systems 27 (NIPS 2014). p. 085201. Available at: http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf. Goodfellow, I., Bengio, Y. & Courville, A., 2016. Deep Learning. MIT Press. Available at: http://www.deeplearningbook.org/. Isola, P. et. al. 2017. Image-to-Image Translation with Conditional Adversarial Networks. Berkeley AI Research. https://arxiv.org/abs/1611.07004. Li, Stan Z., Jain, Anil K. 2011. Handbook of Face Recognition. Springer. Radford, A., Metz, L. & Chintala, S., 2015. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks., 78(6), pp.648– 649. Available at: http://arxiv.org/abs/1511.06434. Ronneberger O., Fischer P., Brox T. (2015) U-Net: Convolutional Networks for Biomedical Image Segmentation. In: Navab N., Hornegger J., Wells W., Frangi A. (eds) Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015. MICCAI 2015. Lecture Notes in Computer Science, vol 9351. Springer, Cham. Available at: https://arxiv.org/abs/1505.04597. Taigman, Y., Polyak, A. & Wolf, L., 2016. Unsupervised Cross-Domain Image Generation., pp.1–14. Available at: http://arxiv.org/abs/1611.02200. Wang, Zhou., Bovik, Alan Conrad., & Sheikh, Hamid Rahim., 2004. Image Quality Assessment: From Error Visibility to Structural Similarity. IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 13, NO. 4, APRIL 2004. Universitas Indonesia 33 Yan-Zhu, Jun. et. al. 2017. Unpaired Image-to-Image Translation using CycleConsistent Adversarial Networks. International Confrence in Computer Vision 2017. Available at: https://arxiv.org/abs/1703.10593. Universitas Indonesia 34 LAMPIRAN Lampiran 1. Tabel output citra hasil translasi citra wajah dengan CycleGAN Original Sketch Original Photo Translation Sketch Translation Photo Rec. Sktech Rec. Photo Universitas Indonesia 35 Universitas Indonesia 36 Lampiran 2. Tabel output citra hasil translasi citra wajah dengan U-CycleGAN Original Sketch Original Photo Translation Sketch Translation Photo Rec. Sktech Rec. Photo Universitas Indonesia 37 Universitas Indonesia 38 Lampiran 3. Tabel output citra hasil translasi citra wajah dengan U-CycleGAN + SSIMLoss Original Sketch Original Photo Translation Sketch Translation Photo Rec. Sktech Rec. Photo Universitas Indonesia 39 Universitas Indonesia