Uploaded by test test

Laporan - Rev 2

advertisement
UNIVERSITAS INDONESIA
TRANSLASI CITRA WAJAH DARI CITRA SKETSA WAJAH DENGAN
MENGGUNAKAN GENERATIVE ADVERSARIAL NETWORK
TESIS
DINO HARIATMA PUTRA
1606964654
FAKULTAS ILMU KOMPUTER
PROGRAM STUDI MAGISTER ILMU KOMPUTER
DEPOK
APRIL 2019
ii
ABSTRAK
Nama
: Dino Hariatma Putra
Program Studi : Magister Ilmu Komputer
Judul
: Translasi Citra Wajah dari Citra Sketsa Wajah dengan menggunakan
Generative Adversarial Network.
Generative Adversarial Network (GAN) adalah salah satu framework dari deep
learning dalam model generatif GAN itu framework atau klasifikasi? Kalau dari
literatur yg saya baca sih salah satu klasifikasi dari ML. Kemudian model generatif
setahu saya pendekatan, sehingga menurut saya kalimar pertama perlu diperjelas.
Model generatif bertujuan untuk mensintesis sebuah data baru sehingga memiliki
sebaran distribusi sesuai dengan distribusi data asli. Pada perkembangan saat ini, GAN
tidak hanya digunakan untuk mensintesis data dari suatu noise, tetapi telah mulai
digunakan untuk mentranslasi (menerjemahkan?) data dari suatu domain ke data
dengan domain berbeda. Beberapa penelitian yang telah dikembangkan antara lain,
CycleGAN, Pix2pix, dan juga Domain Transfer Network. Pada penelitian-penelitian
tersebut, belum menggunakan wajah sebagai obyek translasi, karena citra wajah
memiliki struktur yang cukup kompleks jika dibandingkan dengan obyek-obyek
lainnya. Pada penelitian ini didapatkan sebuah model untuk Translasi Citra Sketsa
Wajah menjadi Citra Wajah dan juga Translasi Citra Wajah menjadi Citra Sketsa
Wajah. Hasil yang diperoleh dari pengujian model U-CycleGAN dengan SSIM-Loss
rata-rata score SSIM adalah 0.8847 untuk translasi sketsa – foto – sketsa dan untuk
translasi foto – sketsa – foto adalah 0.6865.
Kata Kunci: Generative Adversarial Network, Deep Learning, Sintesis, Translasi, Citra
Wajah, Sketsa Wajah, CycleGAN, Pix2pix, Domain Transfer Network.
Universitas Indonesia
iii
ABSTRACT
Name
: Dino Hariatma Putra
Study Program : Magister Ilmu Komputer
Title
: Translation of Face Images from Face Sketch Images by using
Generative Adversarial Network.
Generative Adversarial Network (GAN) is one of the frameworks of deep learning in
generative models. The generative model aims to synthesize a new data so that it has a
distribution of distribution in accordance with the original data distribution. In the
current development, GAN is not only used to synthesize data from a single noise, but
has begun to be used to translate data from a domain to data with different domains.
Some studies that have been developed for example, CycleGAN, Pix2pix, and Domain
Transfer Network. At those studies, face has not been used as translation object,
because face images have fairly complex structure compared to other objects. In this
study, a model was obtained to translate the image of a face sketch into a face image
and also the translation of a face image into an image of a face sketch. The results
obtained from testing the U-CycleGAN model with the SSIM-Loss average SSIM score
is 0.8847 for the translation of sketch - photo - sketchs and for the translation of photo
– sketch – photo is 0.6865.
Keywords: Generative Adversarial Network, Deep Learning, Synthesis, Translation,
Face Image, Face Sketch, CycleGAN, Pix2pix, Domain Transfer Network.
Universitas Indonesia
iv
DAFTAR ISI
HALAMAN JUDUL ................................................................................................i
ABSTRAK ................................................................................................................ii
ABSTRACT ..............................................................................................................iii
DAFTAR ISI .............................................................................................................iv
DAFTAR GAMBAR ................................................................................................vi
DAFTAR TABEL ....................................................................................................vii
DAFTAR LAMPIRAN ............................................................................................viii
BAB I
PENDAHULUAN
1
1.1 Latar Belakang .....................................................................................3
1.2 Perumusan Masalah .............................................................................3
1.3 Tujuan Penelitian .................................................................................3
1.4 Batasan Masalah...................................................................................3
1.5 Sistematika Penulisan ..........................................................................3
BAB II
LANDASAN TEORI
4
2.1 Pengolahan Citra ..................................................................................4
2.2 Neural Network ....................................................................................5
2.3 Generative Adversarial Network..........................................................8
2.4 SSIM...................................................................................................10
Universitas Indonesia
v
BAB III
GENERATIVE ADVERSARIAL NETWORK UNTUK TRANSLASI
CITRA
12
3.1 Translasi Citra dengan metode Konvensional ...................................... 12
3.2 Translasi Citra dengan GAN ..............................................................13
3.3 Translasi Citra antara Sketsa dan Foto ...............................................15
3.4 Fokus Penelitian dan Kontribusi ........................................................16
3.5 U-CycleGAN ......................................................................................17
BAB IV
EKSPERIMEN, HASIL, DAN ANALISA
20
4.1 Desain Eksperimen ............................................................................20
4.1.1
Dataset ....................................................................................20
4.1.2
Evaluasi ..................................................................................21
4.2 Eksperimen .........................................................................................22
BAB V
4.2.1
Eksperimen Cyclegan.............................................................22
4.2.2
Eksperimen U-Cyclegan (CycleGAN + U-Net) ....................23
4.2.3
Eksperimen U-Cyclegan + SSIM Loss ..................................24
KESIMPULAN DAN SARAN
27
5.1 Kesimpulan .......................................................................................27
5.2 Saran ...................................................................................................29
DAFTAR PUSTAKA ...............................................................................................30
LAMPIRAN .............................................................................................................32
Universitas Indonesia
vi
DAFTAR GAMBAR
Gambar 1.1 Contoh Translasi citra .............................................................................2
Gambar 2.1 Arsitektur VGGnet 16 ............................................................................6
Gambar 2.2 Blok pada resnet .....................................................................................7
Gambar 2.3 Arsitektur U-net ......................................................................................8
Gambar 2.4 Arsitektur GAN ......................................................................................9
Gambar 2.5 Arsitektur DCGAN ...............................................................................10
Gambar 3.1 Arsitektur Cyclegan ..............................................................................14
Gambar 3.2 Generator U-net dengan skip connections. ...........................................14
Gambar 3.3 Proses training pada CycleGAN ...........................................................18
Gambar 3.4 Model generator U-net yang diusulkan ................................................19
Gambar 3.5 Model Discriminator yang dipakai .......................................................19
Gambar 4.1 CUHK Face Sketch Dataset..................................................................21
Universitas Indonesia
vii
DAFTAR TABEL
Tabel 3.1 Studi literatur Translasi Citra GAN...........................................................15
Tabel 3.2 Tabel skenario penelitian...........................................................................19
Universitas Indonesia
viii
DAFTAR LAMPIRAN
Lampiran 1. Tabel Output Citra Hasil Translasi Citra Wajah Dengan CycleGAN ....... 32
Lampiran 2. Tabel Output Citra Hasil Translasi Citra Wajah Dengan U-CycleGAN ... 34
Lampiran 3. Tabel Output Citra Hasil Translasi Citra Wajah Dengan U-CycleGAN +
SSIM-Loss................................................................................................ 36
Daftar isi dsb, kalau sudah selesai tolong dirapikan lagi. Masih belum rata
Universitas Indonesia
1
BAB I
PENDAHULUAN
Pada bagian ini dijelaskan tentang latar belakang dilakukannya penelitian ini,
tujuan dan manfaat dilakukannya penelitian, ruang lingkup penelitian, serta sistematika
penulisan laporan penelitian.
1.1
Latar Belakang
Machine learning ada karena keinginan untuk meniru kemampuan
manusia yang dapat belajar mengenai sesuatu hal dengan sangat baik. Neural
network merupakan salah satu metode dari machine learning yang melakukan
pemodelan serupa dengan jaringan syaraf manusia dengan sejumlah node yang
terkoneksi melalui jaringan-jaringan penghubung. Model generatif dari neural
network telah menjadi trend dalam perkembangan machine learning pada saat
ini, dengan tujuan berupa menghasilkan data “imitasi” yang asli (tidak sama
persis dari data-data pembelajarannya).
Pada tahun 2014, Ian Goodfellow et al., menciptakan sebuah framework
baru dalam model generative. Framework ini menggunakan pendekatan
Adversarial Model. Framework ini dinamakan Generative Adversarial Network
(GAN). GAN terdiri dari dua network yang dilatih secara simultan dan
berhubungan. Dua network itu adalah generator dan discriminator, yang mana
keduanya saling berlawanan. Generator bertugas untuk meciptakan sebuah data
palsu dan discriminator bertugas mengevaluasi atau membedakan data palsu dan
data asli.
Sejak pertama kali diciptakan, GAN menjadi topik penelitian yang
mendapat banyak perhatian. Telah banyak framework yang mengadaptasi GAN
dalam beberapa subyek penelitian, salah satunya adalah cross-domain atau
domain translation atau domain transfer. Subyek ini fokus ke bagaimana GAN
Universitas Indonesia  font footer tidak seragam
2
dapat mentransformasi suatu data dalam suatu domain ke dalam domain yang
berbeda. Salah satu kasus yang banyak dilalukan adalah image-translation atau
translasi citra seperti transfer dari foto menjadi karikatur atau emoji.
Kemudiancross-domain relations yakni misal transfer motif dari tas menjadi
warna dari sepatu, translasi gambar antara zebra dengan kuda, antara foto dengan
lukisan, dan juga translasi gambar pemandangan pada musim panas dengan
musim dingin seperti yang diilustrasikan pada gambar 1.1.
Gambar 1.1 Contoh Translasi Citra
CycleGAN (Yan Zhu et al, 2017) adalah salah satu framework GAN yang
diterapkan untuk translasi citra. Jika dibandingkan dengan metode-metode
sebelumnya, CycleGAN memperlihatkan hasil yang sangat baik dalam
mentranslasi citra. CycleGAN memiliki arsitektur yang kompleks sehingga
proses optimasi modelnya cukup lama. Pix2pix (isola et al, 2017) juga
merupakan GAN yang melakukan translasi citra. Pix2pix menghasilkan output
yang cukup baik, walaupun tidak sebaik CycleGAN tetapi optimasi model
Universitas Indonesia  font footer tidak seragam
3
pix2pix lebih cepat.  sebaiknya tidak menggunakan kata yang subjektif seperti
sangat baik, cukup baik, dan semacamnya. Gunakan penjelasan yang terukur.
Pada penelitian ini, akan dilakukan \modifikasi model CycleGAN untuk
melakukan translasi citra sketsa wajah ke citra foto wajah. Kasus translasi ini
diajukan karena diharapkan dapat sangat membantu untuk mendapatkan foto
wajah seseorang jika kita mengetahui sketsa wajah seseorang. Dan juga dalam
CycleGAN model yang didapat tidak hanya model yang mentranslasi citra
sketsa wajah menjadi citra foto wajah, tetapi juga menghasilkan model yang
melakukan proses sebaliknya.
1.2
Perumusan Masalah
Berdasarkan uraian di atas, perumusan masalah dari penelitian ini yaitu:
1. Bagaimana cara meminimalkan waktu optimasi yang lama pada CycleGAN.
2. Model CycleGAN seperti apa yang stabil untuk melakukan translasi citra
sketsa wajah dan citra foto wajah.
1.3
Tujuan Penelitian
Tujuan penelitian ini adalah membuat
framework
yang dapat
merekonstruksi citra wajah secara unsupervised dengan mengoptimasi dan
membadingkan beberapa model Generative Adversarial Network untuk translasi
citra. Sehingga masukan yang diharapkan dari framework ini adalah sebuah citra
sketsa dan dapat menghasilkan keluaran berupa citra wajah yang valid atau jelas.
1.4
Batasan Masalah
Batasan Masalah penelitian ini sebagai berikut:
1. Menggunakan dataset CUHK face sketch, yaitu data citra sketsa wajah yang
memiliki ukuran sesuai dengan ukuran wajah asli, bukan karikatur.
2. Mengadopsi dari arsitektur Cyclegan.
Universitas Indonesia  font footer tidak seragam
4
3. Penelitian ini berfokus pada model translasi citra sketsa wajah menjaddi citra
foto wajah.
Universitas Indonesia  font footer tidak seragam
5
BAB II
LANDASAN TEORI
Bab ini menjelaskan mengenai tinjauan pustaka meliputi teori serta pendekatan
yang digunakan untuk menyelesaikan masalah domain transfer dari gambar sketsa ke
citra wajah dengan neural network.
2.1
Pengolahan Citra
Pengolahan citra atau image processing adalah suatu proses pengolahan
citra dengan teknik tertentu, baik yang masukkan berupa citra dan yang
menghasilkan keluaran yang berupa citra. Pengolahan citra berfungsi untuk
meningkatkan kualitas citra, karena pada citra dengan kualitas tinggi akan
didapatkan hasil yang terbaik, dan informasi yang penting juga bisa didapat dari
kualitas citra yang jelas. Dan ada yang berfungsi mengekstrak informasi sehingga
didapatkan informasi yang relevan dari citra.
Pengolahan citra mengacu pada analisis kuantitatif dan/atau algoritma yang
diterapkan pada data gambar digital. Pemrosesan gambar sekarang secara rutin
digunakan oleh berbagai individu yang memiliki akses ke kamera digital dan
computer. Dengan investasi minimum, seseorang dapat dengan mudah
meningkatkan kontras, mendeteksi tepi, mengukur intensitas, dan menerapkan
berbagai operasi matematika ke gambar.
Pengenalan pola (pattern recognition) adalah ilmu yang mempelajari cara
untuk mengenali dan menganalisis pola tertentu pada sekelompok obyek. Pola
yang ingin dikenali harus memiliki ciri yang spesifik dan di dalam satu himpunan
kelas yang sama, sehingga dapat membedakan dengan obyek dari kelas yang
berbeda.
Pengenalan wajah (face recognition) adalah sebuah proses mengenali wajah,
dengan mencocokkan wajah masukkan dengan database wajah yang telah ada
Universitas Indonesia
6
untuk menemukan hasil yang sesuai dengan masukkan sebelumnya. Sebelum
dapat melakukan proses pengenalan wajah (face recognition), terlebih dahulu
dilakukan proses pendeteksian wajah (face detection).
Deteksi merupakan proses awal dalam pengenalan wajah. Pendeteksian
wajah dikatakan baik jika proses tersebut mampu memberikan informasi tentang
skala wajah, mendeteksi posisi bagian yang lain seperti mata, hidung, mulut dan
garis wajah sehingga hasil yang didapatkan bisa memberikan informasi wajah
yang lengkap dan utuh (Z. Li & K. Jain, 2011).
2.2
Neural Network
Jaringan Syaraf Tiruan atau Artificial Neural Network (ANN) adalah teknik
dalam Machine Learning yang terinspirasi dari jaringan syaraf manusia yang
tersusun dari graf dan vertex. Penelitian pada neural network pada dewasa ini
sangat berkembang pesat, pada saat ini neural network telah berkembang menjadi
deep learning.
Pada era deep learning saat ini selain model feed forward neural network
(NN), model convolutional neural network (CNN) (LeCun, 1989) sudah banyak
diterapkan dalam berbagai penelitian berkaitan dengan deep learning. Pada kasus
klasifikasi citra, MLP kurang sesuai untuk digunakan karena tidak menyimpan
informasi spasial dari data citra dan menganggap setiap piksel adalah fitur yang
independen sehingga menghasilkan hasil yang kurang baik.
Convolutional Neural Network merupakan metode deep learning yang
memiliki hasil paling signifikan dalam melakukan pengenalan citra, ini
dikarenakan CNN melakukan operasi pada citra dengan tidak menghilangkan
informasi spasialnya. CNN melakukan operasi konvolusi yang dituliskan dalam
formula berikut:
∞
∞
𝑓(𝑡) = (𝑥 ∗ ℎ)(𝑡) = ∫ 𝑥(𝑢)ℎ(𝑡 − 𝑢)𝑑𝑢 = ∑ 𝑥(𝑢)ℎ(𝑡 − 𝑢)
−∞
𝑢=−∞
Universitas Indonesia
7
Beberapa model-model yang stabil menggunakan CNN antara lain,
VGGNet, Residual Network, dan U-net.
VGGNet (Simonyan, 2014) terdiri dari beberapa lapisan yang seragam.
VGGNet menggunakan layer CNN yang sederhana, yang biasanya memiliki
ukuran kernel 3 × 3, beberapa kasus dalam large-size menggunakan kernel
ukuran 5 x 5 atau 7 x 7. Pada VGGNet ini model seperti terbagi dalam beberapa
blok, setiap blok memiliki dua atau tiga lapisan konvolusional yang ditumpuk
dengan max-pooling pada unjung akhirnya untuk mengurangi ukuran volume.
Pada blok terakhir menggunakan beberapa lapis feed forward NN yang kemudian
diikuti oleh classifier softmax. Contoh model VGGNet ini diilustrasikan pada
gambar 2.1.
Salah satu kelemahan VGGNet adalah jaringan ini biasanya besar. Ini berisi
sekitar 160M (maksudnya 160 juta?, ya ditulis saja 160 juta) parameter. Sebagian
besar parameter dikonsumsi dalam lapisan fc (fully conected).
Gambar 2. 1 Arsitektur VGGnet dengan 13 lapisan CNN
Deep residual network (Kaiming He, 2015) atau yang lebih dikenal resnet
memiliki arsitektur berupa beberapa tumpukan blok residual network. Angka
pada nama resnet-30 atau resnet-50 adalah jumlah blok residu pada arsitektur
resnet. Blok residu ini identik dengan persamaan residu, yakni 𝑦 = 𝐹(𝑥) + 𝑥,
dimana 𝐹(𝑥) adalah proses kovolusi.. Berikut adalah contoh satu blok resnet
dengan 2 lapisan CNN dan 3 lapisan CNN:
Universitas Indonesia
8
Gambar 2. 2 Blok pada resnet
U-net (Ronneberger, 2015) memiliki konsep yang mirip dengan resnet
dimana tetap menerapakan perhitungan residualnya, namun hanya ada 1 blok
tidak seperti resnet yang memiliki beberapa blok.
U-net ini dinamakan dari bentuk arsitekturnya yang membentuk huruf “U”.
kedalaman dari arsitektur ini dapat dilihat dari seberapa dalam residual yang
dihitung. Seperti pada gambar 2.3. U-net pada dasarnya adalah sebuah pasangan
encoder-decoder pada autoencoder, tetapi ditambahkan skip-connection pada
setiap level pasangan encoder-decoder yang setara.
Universitas Indonesia
9
Gambar 2. 3 Arsitektur U-net
2.3
Generative Adversarial Network
Generative Adversarial Network atau GAN (Goodfellow, 2014), adalah
model generative yang pendekatannya berdasarkan kepada differentiable
generator network. Differentiable generator network adalah sebuah model
generatif yang mentransformasi sampel dari variabel laten z ke sampel x
menggunakan
fungsi
differentiable
(yang
dapat
diturunkan)
𝑔(𝑧; 𝜃 (𝑔) )(Goodfellow, 2016).
GAN merupakan sebuah kombinasi dari dua buah neural network, yaitu
generator network dan discriminator network yang bekerja beriringan dan saling
mempengaruhi. GAN berbasis kepada sebuah skenario teori permainan dimana
Universitas Indonesia
10
generator network harus bersaing dan bermusuhan dengan discriminator network
(Goodfellow, 2016) (gambar 2.4.).
Generator berfungsi untuk mensintesis sebuah data baru yang didapatkan
dari menyamarkan sebuah noise menjadi distribusi data yang diinginkan. Data
yang dihasilkan ini akan dievaluasi oleh discriminator, proses ini akan dilakukan
terus menerus sampai generator menghasilkan data yang oleh discriminator tidak
dapat mengevaluasi lagi datanya atau membingungkan discriminator. Dari proses
ini sehingga didapatkan sebuah data baru yang mirip dengan distribusi aslinya.
Proses ini didasarkan pada pendekatan minmax, dimana proses ini bertujuan
untuk meminimalkan kesalahan pada generator dan memaksimalkan kesalahan
pada discriminator sehingga mendapatkan sebuah titik konvengensi atau dapat
disebut titik equilibrium. Fungsi GAN dapat diformulakan sebagai berikut:
𝐺
= 𝑎𝑟𝑔𝑚𝑖𝑛𝑚𝑎𝑥𝑉(𝐺, 𝐷)
𝐺
𝐷
Dimana,
𝑉(𝐺, 𝐷) = 𝐸𝑥 𝑝𝑑𝑎𝑡𝑎(𝑥) 𝑙𝑜𝑔𝐷(𝑥) + 𝐸𝑧 𝑝𝑧(𝑧) 𝑙𝑜𝑔 (1 − 𝐷(𝐺(𝑧)))
Motivasi utama dari desain model generatif GAN adalah tidak perlunya
perkiraan atau asumsi (approximation) awal yang diperlukan sebelum proses
learning GAN dilakukan. Karena saat 𝑚𝑎𝑥𝑉(𝐺, 𝐷) menjadi fungsi konvex pada
𝐷
𝜃(𝑔), maka proses learning ini akan dijamin konvergen dan konsisten secara
asimptotik (Goodfellow et al. 2016).
Universitas Indonesia
11
Gambar 2. 4 Arsitektur GAN
Salah satu varian dari GAN yang terkenal adalah DCGAN (Deep
Convolutional GAN), sebuah arsitektur varian dari GAN yang disusun oleh
convolutional (dan deconvolutional) neural network sebagai generator dan
discriminator (Radford, 2015). Model GAN ini banyak dijadikan rujukan dari
turunan model GAN yang lain, karena terbukti dapat menghasilkan citra yang
baik. Pada eksperimen dari Radford et.al. membuktikan bahwa representasi yang
dipelajari oleh GAN sangat berguna dalam memodifikasi output dari GAN
tersebut. Hal ini ditemukan melalui berbagai eksperimen DCGAN dengan
melakukan berbagai modifikasi terhadap noise vector yang diterima sebagai input
oleh generator (Radford, 2015) (gambar 2.5).
Gambar 2. 5 Arsitektur DCGAN
Universitas Indonesia
12
2.4
SSIM
SSIM (Structural Similarity) adalah suatu metode dalam pengukuran
perbandingan dua buah citra dengan membandingkan luminance, contrast, dan
structure. SSIM diperkenalkan oleh Zhou Wang et. al. pada tahun 2004, dalam
Image Quality Assessment: From Error Visibility to Structural Similarity.
Dalam metode ini tidak membandingkan nilai bit dari citra pixel secara
langsung saja. Metode ini membandingkan komponen dalam sistem visual
manusia. Masing-masing komponen SSIM diformulakan sebagai berikut:
𝑆𝑆𝐼𝑀(𝑥, 𝑦) = 𝑓(, , )
Dengan
𝑙(𝑥, 𝑦) =
2𝜇𝑥 𝜇𝑦 + 𝑐1
𝜇𝑥2 + 𝜇𝑦2 + 𝑐1
𝑐(𝑥, 𝑦) =
2𝜎𝑥 𝜎𝑦 + 𝑐2
𝜎𝑥2 + 𝜎𝑦2 + 𝑐2
𝑠(𝑥, 𝑦) =
𝜎𝑥𝑦 + 𝑐3
𝜎𝑥 𝜎𝑦 + 𝑐3
Yang dikombinasikan menjadi:
𝑆𝑆𝐼𝑀(𝑥, 𝑦) = [𝑙(𝑥, 𝑦)]𝛼 , [𝑐(𝑥, 𝑦)]𝛽 ,
Dimana α > 0, β > 0, dan γ > 0, merupakan parameter yang disesuaikan
tergantung perbandingan masing-masing komponen, lalu untuk sederhananya, α
= β = γ =1 dan 𝑐3 =
𝑐2
2
. Sehingga formula akhirnya menjadi:
𝑆𝑆𝐼𝑀(𝑥, 𝑦) =
(2𝜇𝑥 𝜇𝑦 + 𝑐1 )(2𝜎𝑥𝑦 + 𝑐2 )
(𝜇𝑥2 + 𝜇𝑦2 + 𝑐1 )(𝜎𝑥2 + 𝜎𝑦2 + 𝑐2 )
Nilai dari indeks SSIM ini berada diantara 0 dan 1. Dimana jika bernilai 0,
menyatakan kedua citra x dan y berbeda dan tidak memiliki kemiripan sama
sekali, sedangkan jika bernilai 1, menyatakan cita x dan y adalah dua buah citra
identik yang sama.
Universitas Indonesia
13
Dengan mengacu pada nilai SSIM indeks, SSIM Loss didapatkan dari
modifikasi nilai SSIM indeks, untuk mencari loss function dari proses pelatihan
neural network, yang mana nilai 0 menyatakan tidak memiliki error pada hasil
rekonstruksi. SSIM Loss didefinisikan sebagai berikut:
𝑙𝑆𝑆𝐼𝑀 = 1 − 𝑆𝑆𝐼𝑀(𝑃𝑟𝑒𝑑𝑖𝑘𝑠𝑖, 𝑇𝑎𝑟𝑔𝑒𝑡)
SSIM Loss akan digunakan untuk menghitung reconstruction loss dari
cycleGAN. Reconstruction loss adalah tingkat kesalahan yang dihasilkan dari
hasil rekonstruksi balik dari proses cycle.
Masukan untuk bab 2: ukuran font utk formula2 diperbesar (14)
Universitas Indonesia
14
BAB III
GENERATIVE ADVERSARIAL NETWORK UNTUK
TRANSLASI CITRA
Bab ini membahas penelitian-penelitian sebelumnya yang berhubungan dengan
translasi citra. Isi yang ditekankan dalam pembahasan ini adalah yang menggunakan
metode konvensional dan metode Generative Adversarial Network yang lebih modern.
3.1
Translasi Citra dengan metode Konvensional
Metode konvensional adalah pendekatan yang belum menggunakan metode
deep learning atau masih menggunakan metode lama dalam teknik yang ada di
machine learning. Pada pendekatan ini sebelumnya ada beragam kasus seperti
image denoising, dan style transfer. Xiaotian Wang et al. pada penelitiannya
menggunakan metode Directional Lifting untuk melakukan image denoising
(Xiaotian Wang et al, 2010). Image denoising adalah proses peningkatan kualitas
gambar dari citra yang banyak noise menjadi citra yang lebih halus atau lebih
baik. Pada penelitian ini diceritakan ada ketidak-efisienan dari metode ADL
(Adaptive Directional Lifting) sehingga dikemukankan metode perbaikan dari
sebelumnya yaitu TI-DL (achieve translation invariant directional lifting), untuk
kasus image denoising.
Pada penelitian Fujiwara tentang image restoration yaitu perbaikan citra
dengan menghilangkan blur dan noise yang ada pada citra (H. Fujiwara, 2006).
Pada penelitian ini metode yang digunakan adalah wavelet transform. Dalam
translasi citra, style transfer salah satu kasus yang sedang banyak mendapatkan
perhatian. Salah satunya adalah mentransfer style warna pada sebuah foto ke
dalam foto lainnya (H. Zhao, 2009). Teknik yang digunakan pada penelitian ini
adalah oRGB color space dan histogram matching.
Universitas Indonesia
15
3.2
Translasi citra dengan GAN
Dengan berkembangnya penelitian pada image processing, salah satu
subyek yang mulai diperhatikan adalah translasi citra. Translasi citra sendiri
adalah proses mengubah atau mentransformasi suatu domain citra menjadi
domain yang lainnya maupun sebaliknya, seperti citra hitam putih ditranslasi
menjadi citra berwarna RGB.
Pada dasarnya translasi citra tidak memiliki perbedaan dengan mensintesis
citra, oleh karena itu beberapa peneliti mencoba mengembangkan GAN pada
kasus translasi citra, tidak hanya berfokus pada mensintesis data baru. Tetapi
pada perkembanga penelitian saat ini, banyak yang memodifikasi cara kerja GAN
yang awalnya adalah mensintesis data dari suatu distribusi normal yang acak
menjadi mensintesis data baru dari data lain yang sama tetapi dalam domain
berbeda misalkan mensintesis gambar berwarna dari gambar hitam putih,
mensintesis citra wajah dari sketsa, atau mensintesis gambar dari data teks.
Penelitian yang berkaitan dengan gan dalam domain transfer adalah pix2pix,
cyclegan, dan domain transfer network, semuanya melakukan sebuah translasi
gambar dari domain gambar lain, sebagai contoh pada cyclegan mentranslasi
gambar kuda menjadi zebra dan sebaliknya.
Dalam eksperimen cyclegan (Yan Zhu dan Park, 2017) dilakukan proses
translasi gambar ke gambar, dengan menggunakan arsitektur dari resnet pada
generator GAN, dan menggabungkan dua buah arsitektur GAN ini dimana
keluaran pada GAN pertama menjadi masukan pada GAN kedua, dua GAN ini
diperlukan untuk melakukan rekonstruksi ulang pada citra masukan sehingga
keluaran pada GAN kedua harus sama dengan GAN kedua, dan dihitung untuk
meminimalkan kesalahan rekonstruksinya yang disebut dengan cycleloss. Cycle
Loss ini diformulakan sebagai berikut:
𝐿𝑐𝑦𝑐 (𝐺, 𝐹) = 𝐸𝑥 𝑝𝑑𝑎𝑡𝑎(𝑥) [‖𝐹(𝐺(𝑥)) − 𝑥‖1 ] + 𝐸𝑦 𝑝𝑑𝑎𝑡𝑎(𝑦) [‖𝐺(𝐹(𝑦)) − 𝑦‖1 ]
Universitas Indonesia
16
Dimana
𝑥 → 𝐺(𝑥) → 𝐹(𝐺(𝑥)) ≈ 𝑥
𝑦 → 𝐹(𝑦) → 𝐺(𝐹(𝑦)) ≈ 𝑦
Gambar 3.1 Arsitektur Cyclegan
Pix2pix (Isola, 2017) menggunakan arsitektur dari U-net pada generator
GAN. Pix2pix Memiliki hasil yang cukup baik dalam mentranlasi gambar. Dalam
penelitian ini U-net adalah sebuah autoencoder biasa dengan ditambahkan skip
connections (gambar 2.7.).
Gambar 3.2 Generator U-net dengan skip connections.
Pix2pix dan cyclegan telah menjadi stade-of-the-art dari image translation
dengan arsitektur GAN.
Universitas Indonesia
17
Secara keseluruhan studi literatur tentang translasi citra dirangkum dalam
tabel 3.1.
Tabel 3.1 Studi literatur Translasi Citra GAN
Referensi
Image-to-Image
Translation with
Conditional
Adversarial
Networks (Isola
et al. 2017)
Unpaired Imageto-Image
Translation Using
Cycle-Consistent
Adversarial
Networks (Zhu et
al. 2017)
3.3
Arsitektur model
Generator :
Generator DCGAN
(Radford et al. 2016)
dengan
skip
connection / U-net
(Ronneberger et al.
2015)
Discriminator :
PatchGAN
Metode eksperimen
Kekuatan & Kelemahan
Train
Kekuatan
- original GAN optimization  Supervised, sehingga
ada ground truth
(Goodfellow et al. 2014)
Generator :
Train
DCGAN + Res block - Cycle training A – B – A’
(Johnson et al. 2016) - L1 identity loss
- Reconstruction loss (A
dan A’)
Discriminator :
PatchGAN
70x70
(Isola et al. 2017)
 Masih memiliki
kemungkinan
overfitting pada data
training.
Kekuatan
 Pelatihan secara
unsupervised
Kelemahan
 Training memakan
waktu lama
Translasi citra antara Sketsa dan Foto
Translasi citra antara sketsa dan foto yang menjadi topik pokok dalam
penelitian ini. Translasi citra antara sketsa dan foto memang cukup menarik untuk
dilakukan, karena sketsa wajah dan foto wajah memiliki komponen yang harus
diperhatikan cukup detail.
Beberapa penelitian sebelumnya tentang topik terkait ini diantaranya,
mensintesis sketsa wajah dari foto (X. Wang & X. Tang, 2009). Penelitian ini
menggunakan teknik patch matching, dimana membagi sebuah citra foto menjadi
Universitas Indonesia
18
beberapa region atau blok, lalu setiap region ini dicocokan dengan region-region
pada citra sketsa. Pada proses translasinya menggunakan metode markov network.
Pada penelitian selanjutnya, metode SNS-SRE digunakan untuk
mentranslasi antara sketsa dan foto (X. Gao et al., 2012). Pada penelitian ini tidak
hanya melakukan proses translasi dari foto menjadi sketsa, tetapi juga sebaliknya.
Metode SNS-SRE ini digunakan untuk mengekstrak informasi dari foto dan
sketsa yang nantinya akan digunakan untuk proses translasi.
Pada Universitas Indonesia sendiri juga telah ada penelitian terkait translasi
citra sketsa dan foto. Salah satunya adalah pewarnaan pada citra sketsa untuk
menghasilkan citra foto (V. K. Putri & M. I. Fanany, 2017). Pada penelitian ini
telah digunakan metode deep learning, yaitu deep convolutional neural network
untuk mensistesi citra foto wajah. Output yang dihasilkan sudah cukup baik yaitu
mendapatkan rata-rata SSIM score sebesar 0.66.
3.4
Fokus penelitian dan kontribusi
Penelitian terkait translasi citra antara sketsa wajah dan foto wajah telah
banyak dilakukan. Dari beberapa penelitian sebelumnya proses translasi citra ini
masih membawa terlalu banyak informasi dari domain asalnya. Pada proses
translasi dari foto menjadi sketsa misalnya, citra sketsa yang dihasilkan masih
menyerupai seperti foto yang ditransformasi menjadi citra grayscale.
Salah satu pendekatan terbaru adalah Generative Adversarial Network.
Dari beberapa literatur, performa GAN dalam proses translasi citra cukup
memuaskan. Seperti Pix2pix dan CycleGAN telah menjadi acuan dalam
pengembangan GAN dalam proses translasi citra.
Berdasarkan studi literatur pada penelitian sebelumnya, kombinasi
arsitektur CycleGAN dan arsitektur U-NET yang ada pada Pix2pix dapat
dimanfaatkan sebagai solusi untuk mentranslasi citra antara sketsa dan foto. Dari
Universitas Indonesia
19
metode ini diharapkan dapat menghasilkan model yang cukup baik, untuk
mentranslasi dari citra sketsa ke foto, maupun dari foto ke sketsa.
3.5
U-CycleGAN
Ada tiga metode yang akan digunakan dan dibandingkan yaitu CycleGAN,
CycleGAN dengan generator U-net (U-CycleGAN), dan U-CycleGAN dengan
menggunakan SSIM-Loss untuk menghitung reconstruction error. Ada beberapa
pertimbangan mengapa penelitian ini menggunakan pendekatan GAN, arsitektur
U-net, dan SSIM-Loss: (1) Hasil penelitian tentang translasi citra antara sketsa
dan foto masih belum sempurna. (2) Arsitektur U-net dapat menangani citra
dengan resolusi tinggi dan komputasi yang cukup cepat sehingga diharapkan
pemanfaatan metode ini dapat menjadi solusi dalam meningkatkan kualitas citra
yang lebih baik dan lebih cepat. U-net memiliki skip-connection untuk setiap
bagian encoder dan decoder sehingga dengan adanya skip-connection ini bisa
mempertahankan informasi yang relevan antar domain, dan juga dapat mereduksi
noise-noise yang tercipta dari proses encoder-decoder. (3) Cycle proses yang ada
pada cyclegan menghasilkan sebuah reconstruction loss atau cycleloss yang
didapat dari citra rekonstruksi dan citra input. Reconstruction loss atau loss
function ini dalam beberapa literatur neural network dapat kita hitung dengan
beberapa metode, diataranya: MSE (Mean Square Error), MAE (Mean Absolute
Error), SSIM (Structural Similarity Index) dan lain-lain. Structural Similarity
Index (SSIM) merupakan metode yang diusulkan oleh Wang et al. untuk
mengukur kualitas citra dengan cara membandingkan dua buah citra seperti
membandingkan citra asli dan citra hasil sintetis, atau citra asli dengan citra hasil
denoising (Wang et al., 2004). Ada 3 variabel utama yang digunakan untuk
mengukur SSIM yaitu luminance, contrast, dan structural comparisons. SSIM
lebih cocok untuk menghitung reconstruction loss karena akan mendapatkan
error yang lebih teliti.
Universitas Indonesia
20
Gambar 3. 3 Proses training pada CycleGAN
Model generator yang ditunjukkan pada Gambar 3.3 menggunakan
arsitektur UNET. Generator A2B akan menerima input berupa citra sketsa wajah
(A) yang diambil secara acak. Generator A2B akan menghasilkan citra translasi
berupa foto wajah (B’). Generator B2A akan menerima input berupa citra Foto
wajah (B) yang diambil secara acak. Generator B2A akan menghasilkan citra
translasi berupa sketsa wajah (A’). Discriminator D1 bertugas sebagai pembeda
antara citra foto wajah asli (B) dengan hasil sintesis (B’). Discriminator D2
bertugas sebagai pembeda antara citra sketsa wajah asli (A) dengan hasil sintesis
(A’). Untuk menghasilkan reconstruction loss masing-masing hasil sintesis
translasi akan ditranslasikan dengan generator kebalikannya sehingga
menghasilkan citra rekonstruksinya.
Universitas Indonesia
21
Gambar 3. 4 Model generator U-net yang diusulkan
Setiap discriminator menggunakan arsitektur dari discriminator PatchGAN
dengan keluaran berupa 8 node. Jika citra real yang akan dinotasikan menjadi (1,
1, 1, 1, 1, 1, 1, 1) dan citra fake akan dinotasikan menjadi (0, 0, 0, 0, 0, 0, 0, 0).
Gambar 3. 5 Model Discriminator yang dipakai
Skenario eksperimen yang dilakukan masih arsitektur CycleGAN, adapun
parameter yang diubah sebagai pembanding antar skenario adalah sebagai
berikut:
Tabel 3.2 Tabel skenario penelitian
No
Arsitektur
1
2
3
Generator
Discriminator
Resnet-6
CycleGAN
U-net
PatchGAN
Reconstruction Loss
MAE
SSIM-Loss
Universitas Indonesia
22
BAB IV
EKSPERIMEN, HASIL, DAN ANALISIS
Bab ini membahas tentang desain eksperimen seperti dataset dan model evaluasi yang
digunakan, hasil eksperimen serta hasil uji evaluasi terhadap metode yang diusulkan
dengan menggunakan beberapa metode pengukuran. Penelitian ini dikembangkan
dengan Bahasa pemrograman Python serta library pendukung seperti Keras,
Tensorflow dan Skimage. Adapun perangkat keras yang digunakan pada penelitian ini
terdiri dari GPU NVIDIA MSI GeForce GTX 1050 ti, processor intel(R) Core™ i77700K CPU, memory 16 GB, dan sistem operasi Windows 10 64 bit.
4.1
Desain Eksperimen
Penelitian ini dilakukan dengan melatih model neural network
menggunakan arsitektur CycleGAN dengan skenario penelitian adalah
CycleGAN, U-CycleGAN dan U-CycleGAN+SSIM-Loss. Model generator
pada U-CycleGAN menggunakan arsitektur U-NET untuk membangkitkan citra
tiruan. Proses pelatihan bertujuan mendapatkan model yang optimal untuk proses
translasi antara citra sketsa wajah dan citra foto wajah.
4.1.1 Dataset
Data yang akan digunakan adalah berupa citra sketsa wajah sebagai
masukan dan memiliki keluaran kerupa citra wajah. Sehingga dataset yang
diperlukan adalah pasangan data sketsa dan foto. Dataset citra ini (Gambar
3.1.) didapatkan dari Chinese University of Hong Kong, CUHK face sketch
dataset. Dataset ini terdiri dari 188 pasang data yang akan dibagi menjadi,
100 data latih, 88 pasang data uji (X. Wang & X. Tang, 2009).
Dataset sketsa dibuat oleh pelukis berdasarkan foto yang diambil
dengan pose frontal, dengan kondisi pencahayaan normal dan ekspresi
netral.
Universitas Indonesia
23
Gambar 4. 1 CUHK Face Sketch Dataset
4.1.2 Evaluasi
Metode evaluasi yang digunakan dalam menggukur performa model
yang dihasilkan adalah SSIM (Structural Similarity Index). Structural
Similarity Index (SSIM) merupakan metode untuk mengukur kualitas citra
dengan cara membandingkan dua buah citra.
𝑆𝑆𝐼𝑀(𝑥, 𝑦) =
(2𝜇𝑥 𝜇𝑦 + 𝑐1 )(2𝜎𝑥𝑦 + 𝑐2 )
(𝜇𝑥2 + 𝜇𝑦2 + 𝑐1 )(𝜎𝑥2 + 𝜎𝑦2 + 𝑐2 )
Adapun properti dari SSIM adalah sebagai berikut:
1. Symmetry: 𝑆𝑆𝐼𝑀(𝑥, 𝑦) = 𝑆𝑆𝐼𝑀(𝑦, 𝑥). Hal ini menunjukkan bahwa nilai
SSIM antara 2 buah citra seharusnya tidak berubah jika urutan citra
tersebut ditukar.
2. Boundedness: 𝑆𝑆𝐼𝑀(𝑥, 𝑦) ≤ 1
3. Unique maximum: 𝑆𝑆𝐼𝑀(𝑥, 𝑦) = 1 jika dan hanya jika 𝑥 = 𝑦 . Nilai
maksimum 1 menunjukkan jika dua buah citra tersebut sama atau
identik.
Universitas Indonesia
24
4.2
Eksperimen
Eksperimen diujikan menggunakan 3 model yaitu CycleGAN, UCycleGAN dan U-CGAN + SSIM-Loss. Kemudian hasil ketiganya akan
dibandingkan dengan mengukur seberapa realistis kedua model dapat
mensintesis suatu citra wajah dari domain sketsa dan foto. Pengembanga model
dari CycleGAN menjadi U-CycleGAN karena perubahan pada generator model
GAN dari Resnet-6 menjadi U-net hal ini untuk mengatasi masalah waktu
training pada CycleGAN yang lama dan U-net memiliki waktu training yang
lebih cepat dari Resnet. Lalu diketahui sebelumnya bahwa pengembangan UCycleGAN menjadi U-CycleGAN + SSIM-Loss ada pada penambahan fungsi
loss yaitu reconstruction error pada proses cycle dalam arsitektur CycleGAN
menghitung error antara citra input dengan citra rekonstruksi.
Dataset dibagi menjadi train set, dan test set masing masing 100 dan 88
pasang. Model dilatih menggunakan algoritma Adam Optimizer dengan learning
rate 0.0002 dan decay rate 0.5, jumlah epoch 500, dan batch size 1.
4.2.1 Eksperimen CycleGAN
Pada skema ini, digunakan model dari CycleGAN standard (Yan Zhu
et al, 2017). Dengan mencoba melatih dataset yang telah dikumpulkan.
Sebagaimana yang telah dijelaskan, CycleGAN, proses yang dilakukan
adalah proses translasi dari domain A ke domain B lalu kembali lagi ke
domain A.
Parameter bobot untuk 𝜆𝐺𝐴𝑁 diset 1 untuk fungsi loss pada
adversarial, dan 𝜆𝑐𝑦𝑐 diset 10 untuk error rekonstruksi (Yan Zhu, et al.,
2017). Proses pelatihan disini membutuhkan waktu 9 jam 48 menit 25
detik selama 500 epoch.
Performa citra hasil rekonstruksi yang dihasilkan dapat dilihat
menggunakan skor SSIM. Dari proses training ini dihasilkan dua model
Universitas Indonesia
25
yaitu generator A ke B dan generator B ke A. Pada proses training
didapatkan nilai reconstruction loss yang paling minimum adalah 0.048520
pada epoch ke 431. Hal ini menunjukkan bahwa citra tiruan masih
mempertahankan informasi identitas dari subjek.
Pada proses pengujian model CycleGAN, dibagi menjadi 2, yaitu
pengujian dengan proses translasi sketsa – foto – sketsa, dan translasi foto
– sketsa – foto. Pengujian pertama didapatkan SSIM, dengan skor tertinggi
adalah 0.8916, sedangkan skor terendah adalah 0.7627 dan rata-rata skor
adalah 0.8229 dari keseluruhan data testing. Proses pengujian yang kedua
didapatkan SSIM, dengan skor tertinggi adalah 0.7395, skor terendah
0.5472 dan rata-rata skor adalah 0.6752 dari keseluruhan data testing.
Dari hasil eksperimen dapat dilihat secara visual hasil pada prediksi
atau translasi masih ada yang menghasilkan citra yang jelek. Untuk citra
pada hasil reconstruksi telah menghasilkan citra yang cukup baik dan juga
diperlihatkan dari skor SSIM untuk citra rekonstruksi cukup baik yakni
0.8247 dan 0.6759. Jadi untuk eksperimen pertama ini proses cycle dari
CycleGAN telah dilakukan dengan cukup baik, namun yang kurang adalah
pada bagian generator translasi masih belum menghasilkan citra yang baik.
Dari proses translasi ini dapat dilihat pula, model masih belum bisa
membedakan warna rambut jika mentranslasi dari sketsa ke foto. Citra
rekonstruksi yang dihasilkan masih menghasilkan muka yang usianya
berbeda, seperti menghasilkan wajah yang sedikit terlihat lebih muda.
4.2.2 Eksperimen U-CycleGAN (CycleGAN + U-net)
Pada skema ini, model CycleGAN dimodifikasi dengan mengganti
model generator dengan model generator milik u-net. Dikarenakan U-net
tidak sekompleks model resnet, diharapkan dengan skema pelatihan ini
Universitas Indonesia
26
dapat menghasilkan pelatihan atau optimasi model lebih cepat dari model
Cyclegan dengan resnet.
Proses pelatihan disini membutuhkan waktu 2 jam 18 menit 56
detik. Pada proses training didapatkan nilai reconstruction loss yang paling
minimum adalah 0.049838 pada epoch ke 355. Hal ini menunjukan pada
proses training telah dapat mengurangi waktu training secara signifikan dari
model CycleGAN dengan generator resnet. Untuk performa loss pun tidak
menghasilkan nilai yang berbeda sangat jauh.
Pada pengujian performa model CycleGAN hasil training terhadap
data uji yang belum pernah dipakai untuk proses training. Proses pengujian
yang pertama dengan alur translasi sketsa – foto – sketsa, menghasilkan
SSIM dengan skor tertinggi adalah 0.8596, skor terendah adalah 0.6695,
dan rata-rata skor adalah 0.7782. Skor hasil pengujian pertama ini
mengalami penurunan performa jika dibandinng pada eksperimen
sebelumnya yang memiliki rata-rata 0.8229, jadi model mengalami
penurunan performa sebesar 0.0469.
Sedangkan proses pengujian yang kedua dengan alur translasi foto –
sketsa – foto, menghasilkan SSIM dengan skor tertinggi adalah 0.7790, skor
terendah adalah 0.6123, dan rata-rata skor adalah 0.7050. Skor pada hasil
pengujian kedua mengalami peningkatan dibandingkan eksperimen
sebelumnya yang rata-ratanya adalah 0.6752, jadi model mengalami
peningkatan sebesar 0.0298.
Dari hasil eksperimen dapat dilihat secara visual hasil pada
eskperimen ini mengalami penuruan performa dibanding eksperimen yang
sebelumnya. Hal ini juga dapat dilihat pada citra input dan citra rekonstruksi
yang lebih blur dari aslinya. Walaupun pada proses pengujian yang kedua
mengalami peningkatan rata-rata skor SSIM.
Universitas Indonesia
27
4.2.3 Eksperimen U-CycleGAN + SSIM Loss
Penambahan
SSIM-Loss
pada
model
U-CycleGAN
diharapkan
memberikan output citra yang lebih realistis dibandingkan U-CycleGAN
dikarenakan perhitungan error dilakukan dengan melibatkan 3 variabel utama
yang digunakan yaitu luminance, contrast, dan structural comparisons.
Parameter bobot untuk 𝜆𝐺𝐴𝑁 diset 1 untuk fungsi loss pada adversarial,
dan 𝜆𝑐𝑦𝑐 diset 10 untuk error rekonstruksi.
Proses pelatihan disini membutuhkan waktu 2 jam 40 menit 23
detik. Pada proses training didapatkan nilai reconstruction loss yang paling
minimum adalah 0.050741 pada epoch ke 471. Pada eksperimen ini terjadi
peningkatan waktu training jika dibandingkan dengan eksperimen yang
kedua, tetapi jika dibandingkan dengan eksperimen pertama masih jauh
lebih cepat.
Pada proses pengujian model U-CycleGAN dengan SSIM-Loss,
dibagi menjadi 2, yaitu pengujian dengan proses translasi sketsa – foto –
sketsa, dan translasi foto – sketsa – foto. Pengujian pertama didapatkan
SSIM, dengan skor tertinggi adalah 0.9290, sedangkan skor terendah adalah
0.8363 dan rata-rata skor adalah 0.8847 dari keseluruhan data testing. Pada
skema pengujian pertama ini, model U-CycleGAN menghasilkan data
paling tinggi disbanding dua model yang lain.
Proses pengujian yang kedua didapatkan SSIM, dengan skor tertinggi
adalah 0.7447, skor terendah 0.6049 dan rata-rata skor adalah 0.6865 dari
keseluruhan data testing. Jika dibandingkan dengan model pertama yaitu
CycleGAN, eksperimen pada model ini menghasilkan model lebih baik,
tetapi dibandingkan dengan model yang kedua masih sedikit dibawah
performa model eksperimen kedua.
Universitas Indonesia
28
Dengan demikian masalah training lama dan kestabilan generator
sketsa ke foto dengan generator foto ke sketsa telah teratasi dan hasil yang
diberikan dari model ini sudah cukup memuaskan.
Pada skema ini, diharapkan dapat menghasilkan model yang lebih
baik dikarenakan telah menggunakan SSIM loss dan juga menggunakan
waktu optimasi atau pelatihan yang lebih singkat dari CycleGAN resnet.
Untuk pada eksperimen yang ketiga ini telah dijalankan sebanyak 8
kali, untuk mengetahui kestablian model untuk menghasilkan model yang
konsisten.
Tabel 4. 4 Percobaan CycleGAN U-net + SSIM Loss
Percobaan
1
2
3
4
5
Reconstruction Loss
0.044487
0.042575
0.054491
0.049936
0.051214
Waktu training
2:43:42
2:43:57
2:46:28
2:52:13
2:39:55
6
7
8
𝝁
0.051913
0.050741
0.049587
0.04942
2:40:28
2:40:23
2:30:38
𝝈
0.003683609
Dari hasil pada table 4.4 didapatkan nilai rata-rata dari reconstruction
loss atau SSIM Loss nya adalah 0.04942 dengan simpangan bakunya adalah
0.00368., dengan demikian model ini telah menghasilkan model yang stabil
dan tidak berubah-ubah.
Universitas Indonesia
29
BAB V
KESIMPULAN DAN SARAN
Bab ini menjelaskan kesimpulan dilakukannya penelitian, menjabarkan apakah
tujuan penelitian tercapai, serta saran arah penelitian ke depan.
5.1
Kesimpulan
Model-model generative dengan framework GAN (Generative Adversarial
Network) telah banyak dilakukan. Tetapi dalam kasus image-to-image translasi,
atau translasi antar domain citra masih belum banyak hasil yang baik. Sejauh ini
sudah ada dua model yang sudah menjadi state of the art dalam translasi antar
citra dalam framework GAN. Kedua model itu adalah CycleGAN dan Pix2pix.
Cyclegan lebih unggul dari pix2pix, karena proses training yang secara cyclic
sehingga hasil translasi tidak melenceng dari yang diharapkan.
Pada
penelitian
ini
telah
dilakukan
percobaan-percobaan
untuk
mendapatkan model yang optimal untuk melakukan translasi citra sketsa wajah
dan citra foto wajah. Percobaan-percobaan yang dilakukan antara lain:
1. Percobaan CycleGAN dengan Generator resnet-6.
2. Percobaan CycleGAN dengan Generator U-net.
3. Percobaan CycleGAN dengan Generator U-net dan SSIM Loss pada
Reconstruction Loss.
Dengan melakukan percobaan-perobaan tersebut, didapatkan point point
untuk masing-masing percobaan,
Percobaan 1:
1. Proses training sangat lama yaitu 9 jam 48 menit.
Universitas Indonesia
30
2. Model generator yang dihasilkan belum seimbang, diperlihatkan dengan
perbedaan hasil yang didapat pada translasi sketsa-foto-sketsa dengan fotosketsa-foto.
Percobaan 2:
1. Proses Training menjadi lebih cepat, yaitu 2 jam 18 menit.
2. Model generator yang dihasilkan belum memuaskan, tidak jauh berbeda
dengan percobaan sebelumnya.
Percobaan 3:
1. Waktu trainingnya adalah 2 jam 40 menit sedikit lebih lambat dari
percobaan 2 tetapi masih jauh lebih cepat dari percobaan 1.
2. Skema pelatihan sketsa-foto-sketsa menghasilkan hasil yang baik, begitu
juga untuk foto-sketsa-foto sudah cukup memuaskan.
Dari ketiga percobaan ini, diperlihat sketsa-foto-sketsa memiliki nilai yang
lebih baik dibandingkan foto-sketsa-foto. Hal ini dikarenakan perbandingan foto
dengan foto memiliki fitur yang lebih kompleks dibandingkan perbandingan
sketsa dengan sketsa. Karena komponen perbandingan pada SSIM adalah
Contrast, Luminance dan Structure, maka wajar jika nilai SSIM perbanding foto
dengan foto lebih kecil dari sketsa dan sketsa.
Secara umum dapat disimpulkan sebagai berikut:
1. Generator U-net membantu proses taining CycleGAN menjadi lebih cepat,
tetapi tetap memberikan hasil yang cukup baik.
2. SSIM Loss membantu mengoptimasi model Cycle-reconstruction menjadi
lebih baik.
Universitas Indonesia
31
5.2
Saran
Saran untuk penelitian berikutnya adalah membuat dataset untuk translasi
citra wajah dengan data dari etnis suku-suku di Indonesia. Dikarena struktur
wajah setiap etnis-etnis di dunia berbeda maka diperlukan data-data yang berbeda
pula. Dan juga dapat melakukan penelitian translasi citra wajah dengan domain
lain, seperti domain teks, dalam hal ini ciri-ciri wajah seseorang. Jadi bagaimana
menghasilkan citra wajah atau citra sketsa wajah dari data berupa teks ciri-ciri
wajah.
Universitas Indonesia
32
DAFTAR PUSTAKA
Creswell, A. et al., 2018. Generative Adversarial Networks: An Overview. IEEE Signal
Processing
Magazine,
35(1),
pp.53–65.
Available
at:
http://arxiv.org/abs/1710.07035.
Goodfellow, I. et. al., 2014. Generative Adversarial Networks. In Advances in Neural
Information Processing Systems 27 (NIPS 2014). p. 085201. Available at:
http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf.
Goodfellow, I., Bengio, Y. & Courville, A., 2016. Deep Learning. MIT Press.
Available at: http://www.deeplearningbook.org/.
Isola, P. et. al. 2017. Image-to-Image Translation with Conditional Adversarial
Networks. Berkeley AI Research. https://arxiv.org/abs/1611.07004.
Li, Stan Z., Jain, Anil K. 2011. Handbook of Face Recognition. Springer.
Radford, A., Metz, L. & Chintala, S., 2015. Unsupervised Representation Learning
with Deep Convolutional Generative Adversarial Networks., 78(6), pp.648–
649. Available at: http://arxiv.org/abs/1511.06434.
Ronneberger O., Fischer P., Brox T. (2015) U-Net: Convolutional Networks for
Biomedical Image Segmentation. In: Navab N., Hornegger J., Wells W., Frangi
A. (eds) Medical Image Computing and Computer-Assisted Intervention –
MICCAI 2015. MICCAI 2015. Lecture Notes in Computer Science, vol 9351.
Springer, Cham. Available at: https://arxiv.org/abs/1505.04597.
Taigman, Y., Polyak, A. & Wolf, L., 2016. Unsupervised Cross-Domain Image
Generation., pp.1–14. Available at: http://arxiv.org/abs/1611.02200.
Wang, Zhou., Bovik, Alan Conrad., & Sheikh, Hamid Rahim., 2004. Image Quality
Assessment: From Error Visibility to Structural Similarity. IEEE TRANSACTIONS
ON IMAGE PROCESSING, VOL. 13, NO. 4, APRIL 2004.
Universitas Indonesia
33
Yan-Zhu, Jun. et. al. 2017. Unpaired Image-to-Image Translation using CycleConsistent Adversarial Networks. International Confrence in Computer Vision
2017. Available at: https://arxiv.org/abs/1703.10593.
Universitas Indonesia
34
LAMPIRAN
Lampiran 1. Tabel output citra hasil translasi citra wajah dengan CycleGAN
Original
Sketch
Original
Photo
Translation
Sketch
Translation
Photo
Rec. Sktech
Rec. Photo
Universitas Indonesia
35
Universitas Indonesia
36
Lampiran 2. Tabel output citra hasil translasi citra wajah dengan U-CycleGAN
Original
Sketch
Original
Photo
Translation
Sketch
Translation
Photo
Rec. Sktech
Rec. Photo
Universitas Indonesia
37
Universitas Indonesia
38
Lampiran 3. Tabel output citra hasil translasi citra wajah dengan U-CycleGAN + SSIMLoss
Original
Sketch
Original
Photo
Translation
Sketch
Translation
Photo
Rec. Sktech
Rec. Photo
Universitas Indonesia
39
Universitas Indonesia
Download