Rabu, 01 Mei 2013

BAYESIAN HIREARICHAL ALGORITHM

INTRODUCTION


ANALISA CLUSTER
Analisis cluster merupkan salah satu teknik data mining yang bertujuan untuk mengidentifikasikan sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yan berada dalam kelompok yang sama relative lebih homogeny daripada obyek yang berada pada kelompok yang berbeda. Jumlah kelompok yang dapat diidentifikasi tergantung pada banyak dan variansi data obyek. Tujuan dari pengelompokan sekumpulan data obyek ke dalam beberapa kelompok yang mempunyai karakteristik tertentu dan dapat dibedakan satu sama lainnya adalah untuk analisis dan interpretasi lebih lanjut sesuai dengan tujuan penelitian yang dilakukan. Model yag diambil diasumsikan bahwa data yang dapat digunakan adalah data yang berupa data interval, frekuensi dan biner. Set data obyek harus mempunyai peubah dengan tipe yang sejenis tidak campur antara tipe yang satu dengan lainnya.

 
 
TUJUAN ANALISIS CLUSTER
            Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian teknik ini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan yang dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar. Tujuan analisis cluster di dalam pemasaran adalah sebagai berikut:
1.      Membuat segmen pasar (segmenting the market)
Pelangggan atau pembeli sering diklasterkan berasarkan manfaat atau keuntungan yang diperoleh dari pembelia barang. Setiap cluster akan terdiri dari pelanggan/ pembeli yang relative homogeny, dinyatakan dlam manfaat yang dicari.
2.      Memahami perilaku pembeli
Analisis cluster digunakan untuk mengenali/ mengidentifikasi kelompok pembeli yang homogeny/ relative homogeny. Kemudian perilaku untuk setiap kelompok perlu dikaji secara terpisah. Responde (pembeli) dikelompokkan didasarkan pada self-reported importance yang terkait pada setiap factor pilihan yang digunkan untuk memilih took atau mall di mana para pembeli membeli barang yang dibutuhkan.
3.      Mengenali peluang produk baru
Dengan mengklasterkan merk da prouk, competitive set di dalam pasar bisa ditentikan. Merk di dalam cluster yang sama bersaing sengit satu sama lain, daripada merk dari cluster lain.
4.      Mereduksi data
Analisis cluster digunakan sebagai suatu alat mereduksi data secara umum, untuk mengembangkan cluster atau sub-group dari ata yang mudah dikelola dari kumpuln data asli, secara individual.
 
TEKNIK-TEKNIK DALAM ANALISIS CLUSTER

 

METODE HIRARKI
            Teknik hierarki (hierarchical methods) adalah teknik clustering membentuk konstruksi hirarki atau berasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan). Dengan demikian proses pengelompokannya dilakukan secara bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode-metode yang digunakan dalam teknik hirarki:
 
1    1. Agglomerative Methods
Metode ini dimulai dengan kenyataan bahwa setiap obyek membentuk clusternya masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek ketiga akan bergabung dengan cluster yang ada atau bersama obyek lain dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek. Ada beberap teknik dalam agglomerative methods, yaitu:

  a) Metode Single Linkage (nearest neighbor methods)
Input untuk algoritma single linkage bisa berwujud jarak atau similarities antara pasangan-pasangan dan obyek-obyek. Kelompok-kelompok dibentik dari entitas individu dengan menggabungkan jarak pling pendek atau similarities (kemiripan) yang paling besar.
Pada awalnya, kita harus menemukan jarak terpendek dalam D = {dik} dan menggabungkan obyek-obyek yang bersesuaian, misalnya U dan V, untuk mendapatkan cluster (UV). Untuk langkah (3) dari algoritma di atas, jarak-jarak antara (UV) dan cluster W yang lain dihitung dengan cara:
 
Di sini besaran-besaran  dan  berturut-turut adalah jarak terpendek antara cluster-cluster U dan W dan juga cluster-cluster V dan W.
 
b) Metode Complete Linkage (furthest neighbor methods)
Complete linkage memberikan kepastian bahwa semua item-item dalam satu cluster berada dalam jarak paling jauh (similaritas kecil) satu sama lain.
Algoritma agglomerative pada umumnya dimulai dengan menentukan entri (elemen matriks) dalam D = {dik} dan menggabungkan obyek-obyek yang bersesuaian, misalnya U dan V untuk mendapatkan cluster (UV). Untuk langkah (3) dari algoritma di atas, jarak-jarak antara cluster (UV) dan cluster W yang lain, dpat dihitung dengan:
 
Di sini, besaran-besaran  dan  berturut-turut adalah jarak antara tetangga terdekat cluster-cluster U dan W dan juga cluster-cluster V dan W.
 
c) Metode Average Linkage (between group methods)
 
Average linkage memperlakukan jarak antara dua cluster sebagai jarak rata-rata antara semua pasangan item-item di mana satu anggota dari pasangan tersebut merupakan milik dari tiap cluster. Mulai dengan mencari matriks jarak D = {dik} untuk memperoleh obyek-obyek yang paling dekat, misalnya U dan V. Obyek-obyek ini digabungkan untuk membentuk cluster (UV). Untuk langkah (3) dari algoritma di atas, jarak-jarak antara cluster (UV) dan cluster W yang lain, dapat dihitung dengan:
 

 
Di mana  adalah jarak antara obyek I dalam cluster (UV) dan obyek k dalam cluster W, dan  dan  berturut-turut adalah banyaknya item-item dalam cluster (UV) dan W.
 
12)      Divisive Methods
 
Metode divisive berlawanan dengan metode agglomerative. Metode ini pertama-tama diawali dengan satu cluster besar yang mencakup semua observasi (obyek). Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan sehingga membentuk cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga mencapai sejumlah cluster yang diinginkan.
 
Splinter average distance methods
 
Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek dengan obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek lain pada grupnya. Proses tersebut dimulai dengan memisahkan obyek dengan jarak terjauh sehingga terbentuklah dua grup. Kemudian dibandingkan dengan jarak rata-rata masing-masing obyek dengan grup splinter dengan groupnya sendiri. Apabila suatu obyek mempunyai jarak yang lebih dekat ke group splinter daripada ke groupnya sendiri, maka obyek tersebut haruslah dikeluarkan dari groupnya dan dipisahkan ke group splinter. Apabila komposisinya sudah stabil, yaitu jarak suatu obyek ke groupnya selalu lebih kecil daripada jarak obyek itu group splinter, maka proses berhenti dan dilanjutkan dengan tahap pemisahan dalam group.


Tidak ada komentar:

Posting Komentar