Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com www.statistikolahdata.com ANALISIS K-MEAN CLUSTER “Cluster analysis is technique for grouping individual or object into clusters so that object in same cluster are more like one another than they are like object in other cluster. Specifically the objective is to classify a sample of entities (individual or object) into a small number mutually exclusive groups based on the similarities among the entities. Cluster analysis usually involves at least two step. The first is the measurement of some form of similarity or association between the entities to determine how many groups really exist in the sample. The second step is to profile the person or variable to determine their composition.”(Hair, Anderson, Tatham, Black, 1995). [“Analisis kluster adalah teknik untuk mengelompokkan individu atau objek menjadi beberapa kelompok tertentu di mana setiap objek yang berada dalam kluster yang sama mempunyai kemiripan satu dengan yang lain di bandingkan dengan anggota kluster yang lain. Secara khusus, tujuan analisis cluster adlah untuk mengklasifikasikan entitas sample (individu atau objek) menjadi sejumlah kecil kelompok khusus yang didasarkan pada kemiripan antarentitas. Analisis kluster umumnya membutuhkan dua tahapan. Pertama, mengukur kemiripan atau asosiasi di antara entitas untuk menentukan berapa banyak kelompok yang akan dipakai pada sampel. Kedua, memprofilkan orang atau variable untuk menentukan posisinya,”(Anderson, Tatham, Black, 1995).] (Yamin dan Kurniawan, 2009) Analisis kluster adalah teknik statistik yang berguna untuk mengelompokan objek atau variable ke dalam beberapa kelompok tertentu di mana setiap objek atau variabel yang terbentuk memiliki sifat dan karakteristik yang berdekatan tersebut. Pada riset pemasaran, analisis kluster biasanya digunakan untuk melakukan proses segmentasi sejumlah responden (konsumen) berdasarkan ciri-ciri sejumlah atribut yang ada. Analisis kluster dapat dibagi menjadi 2 jenis, yaitu Hierarchical Cluster dan K-Mean Cluster. Hierarchical biasanya digunakan untuk jumlah sampel (data) yang relative 1 Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com www.statistikolahdata.com sedikit (< 100). Sedangkan K-Mean Cluster digunakan untuk data yang relatif banyak (>100). Analisis K-Mean Cluster Contoh kasus. Sebuah pusat pembelanjaan melakukan riset untuk mengetahui apa saja yang mendorong konsumen berbelanja di swalayan tersebut. Variabel-variabel pertanyaan yaitu : Lokasi toko, harga produk, kebersihan, pelayanan kasir, fasilitas dan keindahan interior. Untuk itu setiap responden diberi 6 pertanyaan dan didapat 20 responden sebagai sampel. Data yang diperoleh sebagai berikut : Lokasi toko Harga produk Pelayanan Kebersihan kasir 6 4 7 3 2 2 3 1 4 5 7 2 6 4 1 4 6 4 5 3 1 3 2 2 6 6 4 6 3 3 5 3 6 3 3 7 3 7 4 1 2 4 3 3 6 3 5 3 6 4 1 3 2 3 5 5 4 5 4 2 2 2 1 5 4 4 6 4 6 4 6 5 4 2 1 3 5 4 6 4 4 4 7 2 2 3 7 2 6 4 Fasilitas Keindahan interior 3 4 3 6 4 4 4 4 3 6 3 4 4 7 4 7 5 3 2 Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com www.statistikolahdata.com 4 6 3 7 2 2 3 2 4 7 7 2 Langkah-langkah SPSS : Pertama-tama melakukan standarisasi nilai/data yang akan dianalisis (dengan Z score). 1. Klik Analyze > Descriptive Statistics > Descriptives. 2. Pindahkan variabel di kolom kiri ke kolom Variabel (s) 3. Aktifkan Save Standardized Values as Variables 4. Klik OK. Descriptive Statistics N Minimum Maximum Std. Deviation Mean Lokasi toko 20 1 7 3.85 1.899 Harga produk 20 2 7 4.10 1.410 Kebersihan 20 1 7 3.95 Pelayanan kasir 20 2 7 4.10 Fasilitas 20 1 7 3.45 Keindahan interior 20 2 7 4.35 Valid N (listwise) 20 2.012 1.518 1.761 1.496 Tabel Descriptive Statistics akan digunakan untuk membantu menganalisis pengelompokan kluster nantinya. var1 var2 var3 var4 var5 var6 Zvar1 Zvar2 Zvar3 Zvar4 Zvar5 -0.0709 1.51556 6 4 7 3 2 3 1.13191 -0.72449 -0.8232 2 3 1 4 5 4 -0.97397 -0.77987 -1.46587 -0.06586 0.87997 7 2 6 4 1 3 1.65838 -1.48885 1.01865 -0.06586 -1.39092 4 6 4 5 3 6 0.07897 1.34705 0.02485 0.59276 -0.25547 1 3 2 2 6 4 -1.50044 -0.77987 -0.96896 -1.38312 1.44769 Zvar6 -0.90211 -0.23388 -0.90211 1.10258 -0.23388 3 Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com www.statistikolahdata.com 6 4 6 3 3 4 1.13191 -0.0709 1.01865 -0.72449 -0.25547 5 3 6 3 3 4 0.60544 -0.77987 1.01865 -0.72449 -0.25547 7 3 7 4 1 4 1.65838 -0.77987 1.51556 -0.06586 -1.39092 2 4 3 3 6 3 -0.97397 -0.0709 -0.47206 -0.72449 1.44769 3 5 3 6 4 6 -0.4475 0.63808 -0.47206 1.25139 0.31225 1 3 2 3 5 3 -1.50044 -0.77987 -0.96896 -0.72449 0.87997 5 4 5 4 2 4 0.60544 0.52175 -0.06586 -0.8232 2 2 1 5 4 4 -0.97397 -1.48885 -1.46587 0.59276 0.31225 4 6 4 6 4 7 0.07897 1.34705 0.02485 1.25139 0.31225 6 5 4 2 1 4 1.13191 0.63808 0.02485 -1.38312 -1.39092 3 5 4 6 4 7 -0.4475 0.63808 0.02485 1.25139 0.31225 4 4 7 2 2 5 0.07897 -0.0709 1.51556 -1.38312 -0.8232 3 7 2 6 4 3 -0.4475 2.05603 -0.96896 1.25139 0.31225 4 6 3 7 2 7 0.07897 1.34705 -0.47206 1.91002 -0.8232 2 3 2 4 7 2 -0.97397 -0.77987 -0.96896 -0.06586 2.01541 -0.0709 -0.23388 -0.23388 -0.23388 -0.90211 1.10258 -0.90211 -0.23388 -0.23388 1.77081 -0.23388 1.77081 0.43435 -0.90211 1.77081 -1.57034 Perhatikan pada variabel data asli akan muncul 6 variabel dengan awalan “Z”. Langkah analisis selanjutnya : 1. Pilih Analyze > Classify > K-Mean Cluster 2. Pindahkan variabel yang berawalan “Z” ke kolom variable (s) 3. Tentukan jumlah kluster dengan mengisikan angka 3 pada Number of Clusters. 4. Pilih Save dan aktifkan Cluster Membership dan Distance from Cluster center, kemudian Continue 5. Pilih Option, aktifkan Initial Cluster center dan Anova Table. 6. Tekan OK. Hasil Output SPSS 4 Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com www.statistikolahdata.com Initial Cluster Centers Cluster 1 2 3 Zscore: Lokasi toko .07897 -1.50044 1.65838 Zscore: Harga produk 1.34705 -.77987 -1.48885 Zscore: Kebersihan -.47206 -.96896 Zscore: Pelayanan kasir 1.91002 -1.38312 Zscore: Fasilitas -.82320 1.44769 Zscore: Keindahan interior 1.77081 -.23388 1.01865 -.06586 -1.39092 -.90211 Tabel Initial Cluster Centers menunjukan hasil proses sementara pengelompokan data yang di lakukan. Karena proses ini baru awal maka perlu dilakukan proses selanjutnya. Iteration Historya Iteration Change in Cluster Centers 3 1 2 1 1.310 1.177 1.637 2 .000 .000 .000 dimension0 a. Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate change for any center is . 000. The current iteration is 2. The minimum distance between initial centers is 4.912. Pada tabel Iteration history, metode K-Mean Cluster akan menguji dan realokasi kluster yang ada. Proses tersebut di namakan Iteration yang memuat perubahan pada initial cluster (Change in Cluster). Proses ini pengelompokan diulang dengan ketepatan yang lebih akurat. 5 Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com www.statistikolahdata.com Cluster Membership Case Number Cluster Distance 1 3 .830 2 2 .768 3 3 4 1 5 2 6 3 7 3 8 3 9 2 10 1 11 2 12 3 13 2 14 1 15 3 16 1 17 3 18 1 19 1 20 2 dimension0 1.637 .841 1.177 .714 .880 1.209 1.053 .726 .607 .904 1.614 .849 1.661 1.027 1.512 2.300 1.310 1.290 Pada tabel Cluster Membership menunjukan tiap responden masuk ke dalam masing-masing cluster yang di bentuk. Seperti responden 1 masuk kluster 3, nilai distance sebesar 0,830. Namun ini baru 6 Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com www.statistikolahdata.com awal hasil perlu dianalisis hasil selanjutnya. Final Cluster Centers Cluster 1 2 3 Zscore: Lokasi toko -.18426 -1.14946 1.00029 Zscore: Harga produk 1.22889 -.77987 -.33676 Zscore: Kebersihan -.30642 -1.05178 Zscore: Pelayanan kasir 1.25139 -.39518 .02839 1.16383 1.10258 -.67937 Zscore: Fasilitas Zscore: Keindahan interior 1.01865 -.64216 -.89416 -.31741 Tabel Final Cluster Centers menunjukan hasil analisisnya untuk masing-masing variabel dank luster yang di bentuk. Pedoman untuk menafsirkan tabel hasil analisis, dengan ketentuan : o Jika hasil perhitungan ditemukan negatif berarti kluster yang bersangkutan ada di bawah ratarata total. o Jika hasil perhitungan ditemukan positif berarti kluster yang bersangkutan ada di atas ratarata total. Contoh perhitungan untuk angka score variabel 1 lokasi toko pada kluster 1, 2 dan 3. Rumus → X = µ + z.σ Dimana : X = Rata-rata sampel/data/variabel dalam kluster tertentu µ = rata-rata populasi σ = Standar deviasi z = Standar yang dibuat oleh SPSS • Variabel 1 kluster 1 : 7 Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com www.statistikolahdata.com X = µ + z.σ = Rata-rata variabel 1 – (0,18426 x standar deviasi rata-rata variabel 1) = 3,85 – (0,18426 x 1,899) = 3,50009 • Variabel 1 kluster 2 : X = µ + z.σ = 3.85 – (1,14946 x 1,899) = 1,667175 • Variabel 1 kluster 3 X = µ + z.σ = 3,85 + (1,00029 x 1,899) = 5,7405481 Demikian seterusnya untuk variabel yang lainnya. Penafsiran untuk variabel 1 (lokasi toko) adalah : 1) Kluster 1 nilai rata-rata 3,5001 lebih kecil dari rata-rata populasi ( < 3,85) hal ini berarti responden responden tidak menyukai lokasi toko tersebut. 2) Kluster 2 nilai rata-rata 1,6677175 lebih kecil dari rata-rata populasi ( < 3,85) hal ini berarti responden tidak menyukai lokasi toko tersebut. 3) Kluster 3 nilai rata-rata 5,7405481 lebih besar dari rata-rata populasi ( > 3,85) hal ini berarti responden menyukai lokasi toko tersebut. Namun secara cepat hasilnya dapat diperoleh, perhatikan nilai tiap variabel ( tanda – dan +). Dengan memperhatikan tanda tersebut dapat diperoleh tiap variabel masuk ke dalam kluster mana?. Sesuai dengan pedoman penafsiran tabel hasil analisis di atas. Variabel 1 masuk kluster 3, variabel 2 masuk kluster 1, variabel 3 masuk kluster 3, variabel 4 masuk kluster 1, variabel 5 masuk kluster 8 Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com www.statistikolahdata.com 2 dan variabel 6 masuk kluster 1 Demikian juga untuk variabel yang lain. Distances between Final Cluster Centers Cluster 1 3 2 dime nsion 1 3.563 3.473 0 2 3.563 3 3.473 3.679 3.679 Tabel Distances between Final Cluster Centers menunjukan jarak antarkluster, semakin besar angka menunjukan besarnya jarak antarkluster. Kluster 1 jarak dengan kluster 2 sebesar (3,563) jarak dengan kluster 3 (3,473). Kluster 2 jarak dengan kluster 1 (3,563) jarak dengan kluster 3 (3,679). Kluster 3 jarak dengan kluster 1 (3,473) jarak dengan kluster 2 (3,679). ANOVA Cluster Mean Square Error df Mean Square Sig. F df Zscore: Lokasi toko 8.068 2 .168 17 47.888 .000 Zscore: Harga produk 6.809 2 .317 17 21.505 .000 Zscore: Kebersihan 7.751 2 .206 17 37.670 Zscore: Pelayanan kasir 6.816 2 .316 17 21.585 Zscore: Fasilitas 7.264 2 .263 17 27.614 Zscore: Keindahan interior 5.435 2 .478 17 11.363 .000 .000 .000 .001 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal. Sekarang kita akan menguji apakah masing masing kluster berbeda secara sinifikan. Pengujian 9 Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com www.statistikolahdata.com ini menggunakan uji F dan signifikansi yang terdapat pada tabel Anova. Untuk mempermudah kita menggunakan p-value signifikansi. Uji hipotesisnya adalah : H0 = Ketiga kluster tidak ada perbedaan signifikan H1 = ketiga kluster ada perbedaan signifikan Kriteria uji : Tolak hipotsis nol H0 jika nilai p-value (< 0,05) dan terima H1. Pada variabel 1 nilai p-value signifikansi sebesar 0,000 maka tolak H0 dan terima H1. Kesimpulannya ketiga kluster pada variabel 1 (lokasi toko) ada perbedaaan yang signifikan. Secara keseluruhan dari variabel 1-6 ialah ketiga kluster untuk masing-masing variabel mempunyai perbedaan yang signifikan karena p-value signifikansi (< 0,05). Number of Cases in each Cluster Cluster 1 6.000 2 6.000 3 8.000 Valid 20.000 Missing .000 Tabel Number of cases in each Cluster menunjukan jumlah responden yang masuk ke dalam tiap kluster. Kluster 1 (6 responden, kluster 2 (6 responden) dan kluster 3 (8 responden). Hasil analisis secara keseluruhan dapat dilihat pada tabel di bawah ini. No Variabel Nilai F Signif. Ket. Cluster 1 Lokasi toko 47,888 0,000 Signifikan Cluster 3 2 Harga produk 21,505 0,000 Signifikan Cluster 1 10 Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com www.statistikolahdata.com 3 Pelayanan kasir 21,585 0,000 Signifikan Cluster 3 4 Kebersihan 37,670 0,000 Signifikan Cluster 1 5 Fasilitas 27,614 0,000 Signifikan Cluster 2 6 Keindahan Interior 11,363 0,001 Signifikan Cluster 1 11 Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com