Rabu, 01 Mei 2013

BAYESIAN HIREARIRCHAL CLUSTERING (Part 3)

CONTOH

Contoh: terdapat matriks jarak antara 5 buah obyek dengan model D = {dik}, yaitu:

 Langkah penyelesaiannya:

BAYESIAN HIREARIRCHAL ALGORITHM (Part 2)

ALGORITMA


Algoritma Bayesian Hirearirchal Clustering dengan metode agglomerative untuk mengelompokkan N objek (item/variabel):
1.      Dimulai dengan banyaknya N cluster, dimana setiap cluster mengandung entiti tunggal dan sebuah matriks simetrik dengan jarak (similiries)  dengan tipe .
2.      Selanjutnya mencari pasangan cluster yang memiliki jarak terdekat (paling mirip). Misalkan jarak terdekat antara cluster U dan V adalah .
3.      Gabungkan cluster U dan V. label cluster baru yang terbentuk adalah . Karena cluster U dan V telah bergabung maka akan dilakukan peng-update-an matriks jarak, yaitu dengan cara:
a. Hapus baris dan kolom yang bersesuaian dengan cluster  dan
b. Tambahkan baris dan kolom yang memberikan jarak-jarak antara cluster  dan cluster-cluster yang tersisa.
4.      Ulangi langkah 2 dan 3 sebanyak  kali. Ketika algoritma berakhir, maka semua objek akan berakhir dalam cluster tunggal.
 
Pada Bayesian Hirearirchal Clustering menggunakan uji hipotesis statistik untuk memilih cluster yang akan digabungkan.

BAYESIAN HIREARICHAL ALGORITHM

INTRODUCTION


ANALISA CLUSTER
Analisis cluster merupkan salah satu teknik data mining yang bertujuan untuk mengidentifikasikan sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yan berada dalam kelompok yang sama relative lebih homogeny daripada obyek yang berada pada kelompok yang berbeda. Jumlah kelompok yang dapat diidentifikasi tergantung pada banyak dan variansi data obyek. Tujuan dari pengelompokan sekumpulan data obyek ke dalam beberapa kelompok yang mempunyai karakteristik tertentu dan dapat dibedakan satu sama lainnya adalah untuk analisis dan interpretasi lebih lanjut sesuai dengan tujuan penelitian yang dilakukan. Model yag diambil diasumsikan bahwa data yang dapat digunakan adalah data yang berupa data interval, frekuensi dan biner. Set data obyek harus mempunyai peubah dengan tipe yang sejenis tidak campur antara tipe yang satu dengan lainnya.