Uploaded by muhammad nasir

ANALISIS K-MEAN KLUSTER

advertisement
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
www.statistikolahdata.com
ANALISIS K-MEAN CLUSTER
“Cluster analysis is technique for grouping individual or object into clusters so that object in same
cluster are more like one another than they are like object in other cluster. Specifically the objective
is to classify a sample of entities (individual or object) into a small number mutually exclusive
groups based on the similarities among the entities. Cluster analysis usually involves at least two
step. The first is the measurement of some form of similarity or association between the entities to
determine how many groups really exist in the sample. The second step is to profile the person or
variable to determine their composition.”(Hair, Anderson, Tatham, Black, 1995).
[“Analisis kluster adalah teknik untuk mengelompokkan individu atau objek menjadi beberapa
kelompok tertentu di mana setiap objek yang berada dalam kluster yang sama mempunyai kemiripan
satu dengan yang lain di bandingkan dengan anggota kluster yang lain. Secara khusus, tujuan analisis
cluster adlah untuk mengklasifikasikan entitas sample (individu atau objek) menjadi sejumlah kecil
kelompok khusus yang didasarkan pada kemiripan antarentitas. Analisis kluster umumnya
membutuhkan dua tahapan. Pertama, mengukur kemiripan atau asosiasi di antara entitas untuk
menentukan berapa banyak kelompok yang akan dipakai pada sampel. Kedua, memprofilkan orang
atau variable untuk menentukan posisinya,”(Anderson, Tatham, Black, 1995).] (Yamin dan
Kurniawan, 2009)
Analisis kluster adalah teknik statistik yang berguna untuk mengelompokan objek atau variable
ke dalam beberapa kelompok tertentu di mana setiap objek atau variabel yang terbentuk memiliki
sifat dan karakteristik yang berdekatan tersebut. Pada riset pemasaran, analisis kluster biasanya
digunakan untuk melakukan proses segmentasi sejumlah responden (konsumen) berdasarkan ciri-ciri
sejumlah atribut yang ada. Analisis kluster dapat dibagi menjadi 2 jenis, yaitu Hierarchical Cluster
dan K-Mean Cluster. Hierarchical biasanya digunakan untuk jumlah sampel (data) yang relative
1
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
www.statistikolahdata.com
sedikit (< 100). Sedangkan K-Mean Cluster digunakan untuk data yang relatif banyak (>100).
Analisis K-Mean Cluster
Contoh kasus.
Sebuah pusat pembelanjaan melakukan riset untuk mengetahui apa saja yang mendorong konsumen
berbelanja di swalayan tersebut. Variabel-variabel pertanyaan yaitu : Lokasi toko, harga produk,
kebersihan, pelayanan kasir, fasilitas dan keindahan interior. Untuk itu setiap responden diberi 6
pertanyaan dan didapat 20 responden sebagai sampel. Data yang diperoleh sebagai berikut :
Lokasi
toko
Harga
produk
Pelayanan
Kebersihan
kasir
6
4
7
3
2
2
3
1
4
5
7
2
6
4
1
4
6
4
5
3
1
3
2
2
6
6
4
6
3
3
5
3
6
3
3
7
3
7
4
1
2
4
3
3
6
3
5
3
6
4
1
3
2
3
5
5
4
5
4
2
2
2
1
5
4
4
6
4
6
4
6
5
4
2
1
3
5
4
6
4
4
4
7
2
2
3
7
2
6
4
Fasilitas
Keindahan
interior
3
4
3
6
4
4
4
4
3
6
3
4
4
7
4
7
5
3
2
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
www.statistikolahdata.com
4
6
3
7
2
2
3
2
4
7
7
2
Langkah-langkah SPSS :
Pertama-tama melakukan standarisasi nilai/data yang akan dianalisis (dengan Z score).
1. Klik Analyze > Descriptive Statistics > Descriptives.
2. Pindahkan variabel di kolom kiri ke kolom Variabel (s)
3. Aktifkan Save Standardized Values as Variables
4. Klik OK.
Descriptive Statistics
N
Minimum
Maximum
Std. Deviation
Mean
Lokasi toko
20
1
7
3.85
1.899
Harga produk
20
2
7
4.10
1.410
Kebersihan
20
1
7
3.95
Pelayanan kasir
20
2
7
4.10
Fasilitas
20
1
7
3.45
Keindahan interior
20
2
7
4.35
Valid N (listwise)
20
2.012
1.518
1.761
1.496
Tabel Descriptive Statistics akan digunakan untuk membantu menganalisis pengelompokan kluster
nantinya.
var1 var2
var3
var4 var5 var6
Zvar1
Zvar2
Zvar3
Zvar4
Zvar5
-0.0709
1.51556
6
4
7
3
2
3
1.13191
-0.72449
-0.8232
2
3
1
4
5
4
-0.97397 -0.77987 -1.46587 -0.06586
0.87997
7
2
6
4
1
3
1.65838
-1.48885
1.01865
-0.06586 -1.39092
4
6
4
5
3
6
0.07897
1.34705
0.02485
0.59276
-0.25547
1
3
2
2
6
4
-1.50044 -0.77987 -0.96896 -1.38312
1.44769
Zvar6
-0.90211
-0.23388
-0.90211
1.10258
-0.23388
3
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
www.statistikolahdata.com
6
4
6
3
3
4
1.13191
-0.0709
1.01865
-0.72449 -0.25547
5
3
6
3
3
4
0.60544
-0.77987
1.01865
-0.72449 -0.25547
7
3
7
4
1
4
1.65838
-0.77987
1.51556
-0.06586 -1.39092
2
4
3
3
6
3
-0.97397
-0.0709
-0.47206 -0.72449
1.44769
3
5
3
6
4
6
-0.4475
0.63808
-0.47206
1.25139
0.31225
1
3
2
3
5
3
-1.50044 -0.77987 -0.96896 -0.72449
0.87997
5
4
5
4
2
4
0.60544
0.52175
-0.06586
-0.8232
2
2
1
5
4
4
-0.97397 -1.48885 -1.46587
0.59276
0.31225
4
6
4
6
4
7
0.07897
1.34705
0.02485
1.25139
0.31225
6
5
4
2
1
4
1.13191
0.63808
0.02485
-1.38312 -1.39092
3
5
4
6
4
7
-0.4475
0.63808
0.02485
1.25139
0.31225
4
4
7
2
2
5
0.07897
-0.0709
1.51556
-1.38312
-0.8232
3
7
2
6
4
3
-0.4475
2.05603
-0.96896
1.25139
0.31225
4
6
3
7
2
7
0.07897
1.34705
-0.47206
1.91002
-0.8232
2
3
2
4
7
2
-0.97397 -0.77987 -0.96896 -0.06586
2.01541
-0.0709
-0.23388
-0.23388
-0.23388
-0.90211
1.10258
-0.90211
-0.23388
-0.23388
1.77081
-0.23388
1.77081
0.43435
-0.90211
1.77081
-1.57034
Perhatikan pada variabel data asli akan muncul 6 variabel dengan awalan “Z”.
Langkah analisis selanjutnya :
1. Pilih Analyze > Classify > K-Mean Cluster
2. Pindahkan variabel yang berawalan “Z” ke kolom variable (s)
3. Tentukan jumlah kluster dengan mengisikan angka 3 pada Number of Clusters.
4. Pilih Save dan aktifkan Cluster Membership dan Distance from Cluster center, kemudian
Continue
5. Pilih Option, aktifkan Initial Cluster center dan Anova Table.
6. Tekan OK.
Hasil Output SPSS
4
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
www.statistikolahdata.com
Initial Cluster Centers
Cluster
1
2
3
Zscore: Lokasi toko
.07897
-1.50044
1.65838
Zscore: Harga produk
1.34705
-.77987
-1.48885
Zscore: Kebersihan
-.47206
-.96896
Zscore: Pelayanan kasir
1.91002
-1.38312
Zscore: Fasilitas
-.82320
1.44769
Zscore: Keindahan interior
1.77081
-.23388
1.01865
-.06586
-1.39092
-.90211
Tabel Initial Cluster Centers menunjukan hasil proses sementara pengelompokan data yang di
lakukan. Karena proses ini baru awal maka perlu dilakukan proses selanjutnya.
Iteration Historya
Iteration
Change in Cluster Centers
3
1
2
1
1.310
1.177
1.637
2
.000
.000
.000
dimension0
a. Convergence achieved due to no or small
change in cluster centers. The maximum
absolute coordinate change for any center is .
000. The current iteration is 2. The minimum
distance between initial centers is 4.912.
Pada tabel Iteration history, metode K-Mean Cluster akan menguji dan realokasi kluster yang ada.
Proses tersebut di namakan Iteration yang memuat perubahan pada initial cluster (Change in
Cluster). Proses ini pengelompokan diulang dengan ketepatan yang lebih akurat.
5
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
www.statistikolahdata.com
Cluster Membership
Case Number
Cluster
Distance
1
3
.830
2
2
.768
3
3
4
1
5
2
6
3
7
3
8
3
9
2
10
1
11
2
12
3
13
2
14
1
15
3
16
1
17
3
18
1
19
1
20
2
dimension0
1.637
.841
1.177
.714
.880
1.209
1.053
.726
.607
.904
1.614
.849
1.661
1.027
1.512
2.300
1.310
1.290
Pada tabel Cluster Membership menunjukan tiap responden masuk ke dalam masing-masing cluster
yang di bentuk. Seperti responden 1 masuk kluster 3, nilai distance sebesar 0,830. Namun ini baru
6
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
www.statistikolahdata.com
awal hasil perlu dianalisis hasil selanjutnya.
Final Cluster Centers
Cluster
1
2
3
Zscore: Lokasi toko
-.18426
-1.14946
1.00029
Zscore: Harga produk
1.22889
-.77987
-.33676
Zscore: Kebersihan
-.30642
-1.05178
Zscore: Pelayanan kasir
1.25139
-.39518
.02839
1.16383
1.10258
-.67937
Zscore: Fasilitas
Zscore: Keindahan interior
1.01865
-.64216
-.89416
-.31741
Tabel Final Cluster Centers menunjukan hasil analisisnya untuk masing-masing variabel dank luster
yang di bentuk.
Pedoman untuk menafsirkan tabel hasil analisis, dengan ketentuan :
o Jika hasil perhitungan ditemukan negatif berarti kluster yang bersangkutan ada di bawah ratarata total.
o Jika hasil perhitungan ditemukan positif berarti kluster yang bersangkutan ada di atas ratarata total.
Contoh perhitungan untuk angka score variabel 1 lokasi toko pada kluster 1, 2 dan 3.
Rumus → X = µ + z.σ
Dimana : X = Rata-rata sampel/data/variabel dalam kluster tertentu
µ = rata-rata populasi
σ = Standar deviasi
z = Standar yang dibuat oleh SPSS
•
Variabel 1 kluster 1 :
7
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
www.statistikolahdata.com
X = µ + z.σ
= Rata-rata variabel 1 – (0,18426 x standar deviasi rata-rata variabel 1)
= 3,85 – (0,18426 x 1,899)
= 3,50009
•
Variabel 1 kluster 2 :
X = µ + z.σ
= 3.85 – (1,14946 x 1,899)
= 1,667175
•
Variabel 1 kluster 3
X = µ + z.σ
= 3,85 + (1,00029 x 1,899)
= 5,7405481
Demikian seterusnya untuk variabel yang lainnya.
Penafsiran untuk variabel 1 (lokasi toko) adalah :
1) Kluster 1 nilai rata-rata 3,5001 lebih kecil dari rata-rata populasi ( < 3,85) hal ini berarti
responden responden tidak menyukai lokasi toko tersebut.
2) Kluster 2 nilai rata-rata 1,6677175 lebih kecil dari rata-rata populasi ( < 3,85) hal ini berarti
responden tidak menyukai lokasi toko tersebut.
3) Kluster 3 nilai rata-rata 5,7405481 lebih besar dari rata-rata populasi ( > 3,85) hal ini berarti
responden menyukai lokasi toko tersebut.
Namun secara cepat hasilnya dapat diperoleh, perhatikan nilai tiap variabel ( tanda – dan +). Dengan
memperhatikan tanda tersebut dapat diperoleh tiap variabel masuk ke dalam kluster mana?. Sesuai
dengan pedoman penafsiran tabel hasil analisis di atas. Variabel 1 masuk kluster 3, variabel 2
masuk kluster 1, variabel 3 masuk kluster 3, variabel 4 masuk kluster 1, variabel 5 masuk kluster
8
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
www.statistikolahdata.com
2 dan variabel 6 masuk kluster 1
Demikian juga untuk variabel yang lain.
Distances between Final Cluster Centers
Cluster
1
3
2
dime
nsion
1
3.563
3.473
0
2
3.563
3
3.473
3.679
3.679
Tabel Distances between Final Cluster Centers menunjukan jarak antarkluster, semakin besar angka
menunjukan besarnya jarak antarkluster. Kluster 1 jarak dengan kluster 2 sebesar (3,563) jarak
dengan kluster 3 (3,473). Kluster 2 jarak dengan kluster 1 (3,563) jarak dengan kluster 3 (3,679).
Kluster 3 jarak dengan kluster 1 (3,473) jarak dengan kluster 2 (3,679).
ANOVA
Cluster
Mean Square
Error
df
Mean Square
Sig.
F
df
Zscore: Lokasi toko
8.068
2
.168
17
47.888
.000
Zscore: Harga produk
6.809
2
.317
17
21.505
.000
Zscore: Kebersihan
7.751
2
.206
17
37.670
Zscore: Pelayanan kasir
6.816
2
.316
17
21.585
Zscore: Fasilitas
7.264
2
.263
17
27.614
Zscore: Keindahan interior
5.435
2
.478
17
11.363
.000
.000
.000
.001
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the
differences among cases in different clusters. The observed significance levels are not corrected for this and thus
cannot be interpreted as tests of the hypothesis that the cluster means are equal.
Sekarang kita akan menguji apakah masing masing kluster berbeda secara sinifikan. Pengujian
9
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
www.statistikolahdata.com
ini menggunakan uji F dan signifikansi yang terdapat pada tabel Anova. Untuk mempermudah kita
menggunakan p-value signifikansi. Uji hipotesisnya adalah :
H0 = Ketiga kluster tidak ada perbedaan signifikan
H1 = ketiga kluster ada perbedaan signifikan
Kriteria uji :
Tolak hipotsis nol H0 jika nilai p-value (< 0,05) dan terima H1.
Pada variabel 1 nilai p-value signifikansi sebesar 0,000 maka tolak H0 dan terima H1.
Kesimpulannya ketiga kluster pada variabel 1 (lokasi toko) ada perbedaaan yang signifikan.
Secara keseluruhan dari variabel 1-6 ialah ketiga kluster untuk masing-masing variabel mempunyai
perbedaan yang signifikan karena p-value signifikansi (< 0,05).
Number of Cases in each
Cluster
Cluster
1
6.000
2
6.000
3
8.000
Valid
20.000
Missing
.000
Tabel Number of cases in each Cluster menunjukan jumlah responden yang masuk ke dalam tiap
kluster. Kluster 1 (6 responden, kluster 2 (6 responden) dan kluster 3 (8 responden).
Hasil analisis secara keseluruhan dapat dilihat pada tabel di bawah ini.
No
Variabel
Nilai F
Signif.
Ket.
Cluster
1
Lokasi toko
47,888
0,000
Signifikan
Cluster 3
2
Harga produk
21,505
0,000
Signifikan
Cluster 1
10
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
www.statistikolahdata.com
3
Pelayanan kasir
21,585
0,000
Signifikan
Cluster 3
4
Kebersihan
37,670
0,000
Signifikan
Cluster 1
5
Fasilitas
27,614
0,000
Signifikan
Cluster 2
6
Keindahan Interior
11,363
0,001
Signifikan
Cluster 1
11
Jasa Olah Data, Hub : 08816637417 / 087737940271, email : suseno16@gmail.com/statistikolahdata@yahoo.com
Download