Rangkuman Presentasi Data Mining Kelompok 3 Anggota Kelompok Kami: - Kevin Wijaya - 2540124993 Tora Sangputra Yopie Winarto - 2540118555 Felicia Angelica - 2540119545 Romington Hydro - 2540124974 Zefanya Delvin Sulistiya - 2540125485 Materi: K-Means Judul Paper: Implementation K-Means Clustering Method in Job Recommendation System Rangkuman: - - - Latar belakang: Mencari lowongan pekerjaan sulit bagi mahasiswa sehingga harus mencari pekerjaan yang sesuai dengan skill dan kriteria mereka Bisa cari rekomendasi pekerjaan yang cocok menggunakan k-means clustering dengan menginputkan beberapa data dasar tentang diri sendiri. Dataset dari survey dan interview dari mahasiswa dan alumni dan job vacancies di media sosial Kecocokan dinilai dari 4 faktor yaitu main skill, other skills, salary reference, dan location K-means: men-cluster/group data dengan karakteristik yang mirip dengan meminimisasikan jarak antar poin dan cluster centroid masing-masing o Menentukan jumlah cluster o Mengalokasikan data ke cluster secara random o Menghitung centroid/rata-rata dari data di setiap cluster o Mengalokasikan data ke centroid/rata-rata yang terdekat o Kembali ke step 3 bila masih ada data yang berpindah cluster atau apabila nilai centroid berubah secara signifikan o Lakukan hingga iterasi maksimal, perpindahan data antar cluster sudah tidak signifikan, atau centroid tidak berubah-ubah lagi. Untuk menghitung jarak antara centroid dengan poin yang lain bisa menggunakan algoritma seperti Euclidean distance dan Manhattan distance Konklusi: o K-means bisa meng-grouping aplikan dan lowongan kerja dengan baik dengan user satisfaction 87,6% berdasarkan questionnaire testing Kritik: o Kalkulasi kecocokan menggunakan total value binary setiap kolom menghilangkan nuans, dimana contoh tidak ada perbedaan kecocokan pada lokasi pekerjaan dan gaji. o K-means kurang terpakai karena hanya memetakan data 1 dimensi Rangkuman Presentasi Data Mining Kelompok 4 Materi: DBSCAN (Density-Based Spatial Clustering Application with Noise) Judul Paper: Automatic Smoke Detection Based on SLIC-DBSCAN Enhanced Convolutional Neural Network Rangkuman: - - - Latar belakang: bila kebakaran terlambat dieksekusi menyebabkan kerugian materi yang signifikan Teknologi deteksi asap tradisional masih kesulitan membedakan asap kebakaran dan asap yang berasal dari kegiatan sehari-hari seperti memasak. Sementara teknologi deteksi asap menggunakan machine learning masih kesulitan untuk mendeteksi asap yang kompleks. Paper mempropose pembuatan alat deteksi api menggunakan metode SLIC dan DBSCAN o SLIC (Simple Linear Iterative Clustering): Pengelompokan piksel berbasis grid berdasarkan persamaan warna dan posisi piksel dengan metode iteratif o DBSCAN (Density-Based Spatial Clustering Application with Noise): Metode clustering berdasarkan kepadatan data dalam suatu wilayah. Dataset 1000 gambar api, 1000 gambar asap, dan 1000 gambar bukan api dan asap Metode: o Workflow: Ambil training data yang sudah dilabel Proses pake metode SLIC Segmentasi pake sistem DBSCAN Latih model CNN menggunkaan gambar yang dataset yang sudah diproses Dicek masuk ke kategori smoke/fire atau non smoke o DBSCAN: Params: epsilon dan minimum point Epsilon: Jarak maksimum membentuk ε-ball di sekitar setiap titik data Minimum Points: Menentukan jumlah minimum tetangga dalam εball agar suatu titik dianggap sebagai core point Proses clustering: Buat cluster baru, lalu cek tiap titiknya hingga akhirnya dicapai titik border supaya tahu itu sudah waktunya berhenti CNN Menggunakan 6,12, dan 24 filter dan menggunakan 5 kernel Testing set = 0,2 rasio dari dataset, Validation set = 0,33 rasio dari dataset Adam optimizer dan Epoch = 100. o Result for Case: Smoke dan Non Smoke Dievaluasi dengan metrik: AAR: Average accept rate ratio TPR: True Positive Rate FPR: False Positive Rate Precision Recall F1 Score o o o o o Bisa didapat identifikasi gambar mana yang smoke maupun non-smoke dengan performance yang melebihi pure CNN, ResNet-50, dan Xception dalam semua metrik, kecuali FPR. SLIC banyak noise (setelah dikombinasikan dengan DBSCAN noise berkurang) Case 2: Fire and non-fire image Sama seperti case 1, dengan menggunakan SLIC + DBSCAN noise-nya berkurang Konklusi SLIC bagus dalam mendapatkan fitur spectral asap lewat gambar super-pixel, namun kurang efektif untuk campuran gambar super-pixel yang dapat merusak presisi pengenalan DBSCAN pengelompokkan berdasarkan kepadatan dapat mengelompokkan area dengan baik berdasarkan jumlah titik data di sekitar cluster. Kombinasi SLIC + DBSCAN merupakan solusi bagus untuk mengatasi noise dari latar belakang api kompleks dan CNN sendiri punya kemampuan yang bagus untuk mendeteksi api dan smoke Opini dan Komen Positif Model yang digunakan sebagai pembanding cukup banyak Negatif Visualisasi dari cara kerja algoritma tidak dijelaskan Pada tahap DBSCAN tidak disebutkan besaran dari epsilon dan nb_min_point (jumlah tetangga minimal) DBSCAN VS K MEANS DBSCAN tidak menentukan jumlah cluster di awal, seiring waktu akan dibentuk clusternya nanti DBSCAN (Density Based Spatial Clustering Application with Noise): Density: Kepadatan titik data Masih di epsilon yang sama dan minimum points-nya kurang dari 5 Spatial: Untuk menentukkan ruangan dengan segmentasi Deteksi menggunakan Direct Density Reachable (Deket sama core point) dan ada Density Point Reachable (Kalo masi ketemu poinnya walaupun ga ketemu core point), sementara yang tidak terdeteksi sama sekali adalah noise/outlier. Border Point: Masih density reachable, namun min pointsnya dibawah 5