clustering

Clustering: Pengertian, Jenis dan Contoh penerapannya

Pada artikel ini kita akan belajar bagian dari data mining yaitu clustering. Jadi untuk dapat mengaplikasikan cluster kamu harus tahu terlebih dahulu mengenai cluster dari pengertian, konsep, jenis serta contoh penerapannya.

Pengertian Clustering

Clustering merupakan metode penganalisa data, yang sering dimasukkan sebagai salah satu metode Data Mining yang bertujuan untuk mengelompokkan data dengan karakteristik yang sama ke suatu kelompok (cluster) yang sama dan data dengan karakteristik yang berbeda ke kelompok (cluster) yang lain.

Teknik ini merukan salah satu algoritma di dalam data mining yang paling sering digunakan oleh perusahaan untuk melakukan segmentasi kepada customer mereka sehingga dapat meningkatkan penjualan di perusahaan mereka.

Syarat Pada Clustering

Berikut merupakan syarat-syaratnya.

1. Skalabilitas

data-mining-cluster-analysis
Sumber: javatpoint.com

Suatu metode  harus mampu menangani data dalam jumlah yang besar. Data dalam jumlah besar sudah sangat umum digunakan dalam berbagai misalnya saja suatu database. Tidak hanya berisi objek suatu database dengan ukuran besar bahkan berisi lebih dari jutaan objek.

2. Kemampuan Analisa Beragam Bentuk Data

Algoritma clustering harus dapat diimplementasikan dalam berbagai format data, seperti data nominal, data ordinal atau data gabungan.

Baca juga :   IP Address: Pengertian, Cara Kerja, Jenis dan Fungsinya

3. Menemukan Cluster Dengan Bentuk Tidak Terduga

Clustering menggunakan metode Euclidean atau Manhattan yang hasil berbentuk bulat. Padahal hasil clustering dapat berbentuk aneh dan tidak sama antara satu dengan yang lain. Karenanya dibutuhkan kemampuan untuk menganalisa cluster dengan bentuk apapun pada suatu algoritma clustering.

4. Kemampuan Untuk Dapat Menangani Noise

Data tidak selalu dalam kondisi baik, data dapat rusak, tidak bisa dipahami atau hilang. Karena sistem diperlukan algoritma clustering untuk menangani data yang rusak.

5. Sensitifitas Terhadap Perubahan Input

Memodifikasi atau menambahkan data pada input dapat mengubah cluster yang ada dan menggunakan algoritma clustering dengan tingkat sensitivitas yang rendah dapat menghasilkan perubahan yang signifikat.

6. Mampun Melakukan Clustering Untuk Data Dimensi Tinggi

Data dapat berisi banyak dimensi atau atribut yang membutuhkan algortima clustering yang dapat menangani data dengan dimensi yang jumlahnya tidak sedikit.

7. Iterpresasi dan Kegunaan

Hasil dari Clustering harus dapat diinterpretasikan dan berguna.

Konsep Dasar Clustering

Hasil yang baik akan menghasilkan tingkat kesamaan yang tinggi dalam satu kelas (cluster) dan tingkat kesamaan yang rendah antara kelas (cluster). Kesamaan yang dimaksud merupakan pengukuran secara numeric terhadap dua buah objek. Nilai kesamaan objek akan semakin tinggi jika kedua objek yang dibandingkan memiliki kemiripan yang tinggi.

Dalam Clustering dikenal empat tipe data, yaitu.

  1. Variabel berskala interval.
  2. Variabel biner.
  3. Variabel nominal.
  4. Ordinal dan rasio.

Metode clustering juga harus dapat mengukur kemampuannya sendiri dalam usaha untuk menemukan suatu pola tersembunyi pada data yang sedang diteliti.

Jenis-Jenis Clustering

1. Centroid-based

Centroid-based merupakan metode yang mengelompokan data ke dalam non-hierarchical cluster, jenis cluster ini cenderung lebih efisien namun sensitif terhadap outlier. Jenis ini juga merupakan salah satu algoritma iteratif dalam clustering.

Baca juga :   MySQL Update: Cara Update Data dengan CMD dan phpMyadmin

Contoh metode centroid-based: K-Means Clustering.

2. Density-based

Distribution-based-clustering
Sumber: geeksforgeeks.org

Density-based menghubungkan area dengan kepadatan yang sama ke dalam satu kelompok, tipe ini memiliki kesulitan dengan data beragam kepadatan dengan dimensi yang tinggi.

Dalam jenis ini, cluster akan dibuat berdasarkan kepadatan dari masing-masing data poin. Nantinya wilayah yang menjadi padat karena banyaknya data point yang berada di wilayah akan dianggap sebagai satu kelempok (cluster). Sebaliknya wilayah yang memiliki data poin sangat sedikit akan dianggap sebagai noise atau outlier.

3. Distribution-based

Distribution-based mengasumsikan data terdiri dari distribusi, mirip seperti Gaussion Distributions. Semakin jauh jarak dari pusat distribusi, semakin kecil kemungkinan titik akan berada di group distribusi.

Jenis ini cocok pada data sintesis dan cluster dengan ukuran yang beragam.  Expectation-maximization merupakan salah satu algorima yang mengimplementasikan distribution-based clustering.

4. Hierarchical (Connectivity based Cluster)

Jenis ini hampir mirip dengan centeroid-based yang pada dasarnya mendefinisikan sebuah cluster berdasarkan jarak terpendek antara titik data.

Langkah melakukan hierarchical .

  1. Identifikasi item dengan jarak terdekat.
  2. Gabungkan item itu kedalam satu kelompok (cluster).
  3. Hitung jarak antar kelompok (cluster).
  4. Ulangi dari awal sampai semua terhubung.

Contoh metode hierarchy : Single Linkage, Complete Linkage, Average Linkage, Average Group Linkage.

Contoh Penerapan Clustering

Berikut merupakan beberapa contoh penerapannya.

1. Bidang Teknik

Digunakan dalam bidang biometric recognition dan speech recognition, analisa sinyal radar, information compression dan noise removal.

2. Bidang Ilmu Komputer

Web mining, analisa database spesial, information retrieval, textual document collection dan image segmentation.

3. Bidang Media

Digunakan dalam mendefenisikan kategori dalam bidang biologi, indentifikasi fungsi protein dan gen, diagnosa penyakit dan penanganannya.

Baca juga :   Perbedaan Antara Cisco dan MikroTik yang Kamu Harus Ketahui!

4. Bidang Astronomy

Digunakan untuk mengelompokkan bintang dan planet, menginvestigasi formasi tanah, mengelompokkan wilayah atau kota, digunakan dalam studi tentang sistem pada sungai dan gunung.

5. Bidang Sosial

Digunakan pada analisa pola prilaku, identifikasi hubungan antara budaya yang berbeda, pembentukan sejarah evolusi bahasa dan studi psikologi.

6. Bidang Ekonomi

Penerapan pada pengenalan pola pembelian dan karakteristik konsumen, pengelompokan perusahaan dan analisa trend stok.

Penutup

Nah, pada pembelajaran diatas kita sudah mengerti mengenai clustering pada data mining. Cluster berfungsi untuk mengelompokkan data dengan karakteristik yang sama ke suatu kelompok (cluster) yang sama dan data dengan karakteristik yang berbeda ke kelompok (cluster) yang lain.

Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..