Uploaded by kevin.wijaya018

Rangkuman Presentasi Data Mining Kelompok K-Means dan DBSCAN

advertisement
Rangkuman Presentasi Data Mining Kelompok 3
Anggota Kelompok Kami:
-
Kevin Wijaya - 2540124993
Tora Sangputra Yopie Winarto - 2540118555
Felicia Angelica - 2540119545
Romington Hydro - 2540124974
Zefanya Delvin Sulistiya - 2540125485
Materi: K-Means
Judul Paper: Implementation K-Means Clustering Method in Job Recommendation System
Rangkuman:
-
-
-
Latar belakang: Mencari lowongan pekerjaan sulit bagi mahasiswa sehingga harus mencari
pekerjaan yang sesuai dengan skill dan kriteria mereka
Bisa cari rekomendasi pekerjaan yang cocok menggunakan k-means clustering dengan
menginputkan beberapa data dasar tentang diri sendiri.
Dataset dari survey dan interview dari mahasiswa dan alumni dan job vacancies di media
sosial
Kecocokan dinilai dari 4 faktor yaitu main skill, other skills, salary reference, dan location
K-means: men-cluster/group data dengan karakteristik yang mirip dengan meminimisasikan
jarak antar poin dan cluster centroid masing-masing
o Menentukan jumlah cluster
o Mengalokasikan data ke cluster secara random
o Menghitung centroid/rata-rata dari data di setiap cluster
o Mengalokasikan data ke centroid/rata-rata yang terdekat
o Kembali ke step 3 bila masih ada data yang berpindah cluster atau apabila nilai
centroid berubah secara signifikan
o Lakukan hingga iterasi maksimal, perpindahan data antar cluster sudah tidak
signifikan, atau centroid tidak berubah-ubah lagi.
Untuk menghitung jarak antara centroid dengan poin yang lain bisa menggunakan algoritma
seperti Euclidean distance dan Manhattan distance
Konklusi:
o K-means bisa meng-grouping aplikan dan lowongan kerja dengan baik dengan user
satisfaction 87,6% berdasarkan questionnaire testing
Kritik:
o Kalkulasi kecocokan menggunakan total value binary setiap kolom menghilangkan
nuans, dimana contoh tidak ada perbedaan kecocokan pada lokasi pekerjaan dan
gaji.
o K-means kurang terpakai karena hanya memetakan data 1 dimensi
Rangkuman Presentasi Data Mining Kelompok 4
Materi: DBSCAN (Density-Based Spatial Clustering Application with Noise)
Judul Paper: Automatic Smoke Detection Based on SLIC-DBSCAN Enhanced Convolutional Neural
Network
Rangkuman:
-
-
-
Latar belakang: bila kebakaran terlambat dieksekusi menyebabkan kerugian materi yang
signifikan
Teknologi deteksi asap tradisional masih kesulitan membedakan asap kebakaran dan asap
yang berasal dari kegiatan sehari-hari seperti memasak. Sementara teknologi deteksi asap
menggunakan machine learning masih kesulitan untuk mendeteksi asap yang kompleks.
Paper mempropose pembuatan alat deteksi api menggunakan metode SLIC dan DBSCAN
o SLIC (Simple Linear Iterative Clustering): Pengelompokan piksel berbasis grid
berdasarkan persamaan warna dan posisi piksel dengan metode iteratif
o DBSCAN (Density-Based Spatial Clustering Application with Noise): Metode clustering
berdasarkan kepadatan data dalam suatu wilayah.
Dataset 1000 gambar api, 1000 gambar asap, dan 1000 gambar bukan api dan asap
Metode:
o Workflow:
 Ambil training data yang sudah dilabel
 Proses pake metode SLIC
 Segmentasi pake sistem DBSCAN
 Latih model CNN menggunkaan gambar yang dataset yang sudah diproses
 Dicek masuk ke kategori smoke/fire atau non smoke
o DBSCAN:
 Params: epsilon dan minimum point
 Epsilon: Jarak maksimum membentuk ε-ball di sekitar setiap titik
data
 Minimum Points: Menentukan jumlah minimum tetangga dalam εball agar suatu titik dianggap sebagai core point
 Proses clustering:
 Buat cluster baru, lalu cek tiap titiknya hingga akhirnya dicapai titik
border supaya tahu itu sudah waktunya berhenti
 CNN
 Menggunakan 6,12, dan 24 filter dan menggunakan 5 kernel
 Testing set = 0,2 rasio dari dataset, Validation set = 0,33 rasio dari
dataset
 Adam optimizer dan Epoch = 100.
o Result for Case: Smoke dan Non Smoke
 Dievaluasi dengan metrik:
 AAR: Average accept rate ratio
 TPR: True Positive Rate
 FPR: False Positive Rate
 Precision
 Recall
 F1 Score

o
o
o
o
o
Bisa didapat identifikasi gambar mana yang smoke maupun non-smoke
dengan performance yang melebihi pure CNN, ResNet-50, dan Xception
dalam semua metrik, kecuali FPR.
 SLIC banyak noise (setelah dikombinasikan dengan DBSCAN noise berkurang)
Case 2: Fire and non-fire image
 Sama seperti case 1, dengan menggunakan SLIC + DBSCAN noise-nya
berkurang
Konklusi
 SLIC bagus dalam mendapatkan fitur spectral asap lewat gambar super-pixel,
namun kurang efektif untuk campuran gambar super-pixel yang dapat
merusak presisi pengenalan
 DBSCAN pengelompokkan berdasarkan kepadatan dapat mengelompokkan
area dengan baik berdasarkan jumlah titik data di sekitar cluster.
 Kombinasi SLIC + DBSCAN merupakan solusi bagus untuk mengatasi noise
dari latar belakang api kompleks dan CNN sendiri punya kemampuan yang
bagus untuk mendeteksi api dan smoke
Opini dan Komen
 Positif
 Model yang digunakan sebagai pembanding cukup banyak
 Negatif
 Visualisasi dari cara kerja algoritma tidak dijelaskan
 Pada tahap DBSCAN tidak disebutkan besaran dari epsilon dan
nb_min_point (jumlah tetangga minimal)
DBSCAN VS K MEANS
 DBSCAN tidak menentukan jumlah cluster di awal, seiring waktu akan
dibentuk clusternya nanti
DBSCAN (Density Based Spatial Clustering Application with Noise):
 Density: Kepadatan titik data
 Masih di epsilon yang sama dan minimum points-nya kurang dari 5
 Spatial: Untuk menentukkan ruangan dengan segmentasi
 Deteksi menggunakan Direct Density Reachable (Deket sama core point)
dan ada Density Point Reachable (Kalo masi ketemu poinnya walaupun ga
ketemu core point), sementara yang tidak terdeteksi sama sekali adalah
noise/outlier.
 Border Point: Masih density reachable, namun min pointsnya dibawah 5
Download