Pada artikel ini kita akan belajar salah satu bagian dari data mining yaitu metode K Means Clustering. Sebelum kita belajar metode ini sebaiknya kamu membaca terlebih dahulu artikel Clustering untuk dapat lebih mudah memahami metode K means.
Pengertian K means Clustering
K means merupakan metode yang termasuk pada clustering non-hirarki dimana setiap objek yang masuk dalam kelompok (cluster) adalah objek-objek yang sama dan berkorelasi. Data yang tergabung dalam kelompok (cluster) mempunyai tingkat kemiripan yang lebih besar dan memiliki tingkat perbedaan yang besar pula dengan kelompok (cluster) lainnya.
Cluster mengacu pada kumpulan titik data yang dikumpulkan bersama karena kesamaan tertentu. Diketahui jika K = 2 maka akan ada 2 cluster dan jika K = 3 maka terdapat 3 cluster, begitu seterusnya.
Hal Yang Perlu Dipertimbangkan
Ada beberapa hal yang harus dipertimbangkan sebelum kamu menerapkan metode K means ini.
1. Banyak Variabel, Semakin Jauh Titik Data
Ketika banyak variabel masuk, bahkan setelah proses standarisasi maka akan menyebabkan jarak antar titik data semakin jauh.
Untuk menghidari itu kita bisa melakukan reduksi data (misalnya dengan teknik principal components analysis), dengan ini maka akan muncul variabel data yang lebih sesuai.
2. Nilai Tinggi Akan Lebih Berat
Tiap data kemungkinan besar tidak memiliki nilai yang sama. Contoh sebuah kamu sedang menganalisa laptop di sebuah toko online, data yang memuat jumlah penjualan laptop selama promo flash sale akan jauh berbeda dari data yang memuat kategori ukuran laptop. Deret data penjualan akan memilih bobot lebih besar dari deret ukuran laptop di toko.
Solusi untuk mengatasi ini kamu bisa melakukan metode normalisasi. Metode normalisasi yang umum diterpakan dalam K means clustering yaitu normalisasi z-score serta normalisasi min-max.
3. Data Numeric Lebih Baik
K-means pada dasarnya menghitung jarak di antara dua titik data atau lebih. Oleh karena itu algoritma ini kurang cocok jika diterapkan data dengan variabel kategori. Jika memang harus memasukkan variabel kategori sebaiknya hitung lebih dulu kecocokan tiap variabel dengan centroid.
Langkah-Langkah pada K Means Clustering
Berikut ini langkah-langkah yang harus kamu lakukan ketika menggunakan metode ini.
Langkah ke-1
Menentukan nilai K (nilainya bebas) sebagai jumlah cluster yang ingin dibentuk.
Langkah ke-2
Pilih nilai titik random untuk pusat cluster awal (centroid) sebanyak K. Titik ini merupakan titik seed dan akan menjadi titik cetroid proses pertama. Titik ini tidak harus titik data kita.
Langkah ke-3
Label semua data berdasarkan titik centroid terdekat. Semua data diberikan label mengikiti titik centroid dari setiap cluster. Perhitungan jarak ini biasanya menggunakan algoritma jarak tertentu, secara default dilakukan dengan rumus Euclidean Distance.
Langkah ke-4
Tentukan titik centroid baru berdasarkan cluster yang terbentuk. Titik centroid selanjutnya “berpindah” ke lokasi centroid setiap cluster yang telah terbentuk.
Langkah ke-5
Label ulang data berdasarkan jarak terdekat tehadap centroid baru. Langkah ini merupakan langkah yang sama dengan langkah ke-3.
Langkah ke-6
Ulangai langkah ke-4 dan langkah ke-5 sampai tidak ada pergerakan lagi. Secara berulang, algoritma akan mencari lokasi centroid baru dan melabel data berdasarkan centroid tersebut sampai mendapat hasil final, yaitu tidak ada lagi perpindahan centorid disetiap cluster.
Dalam K-means clustering, jarak dapat diukur menggunakan jarak.
- Euclidean distance.
- Manhattan distance.
- A squared eucludean distance measure.
- Consine distance measure.
Kelebihan K Means Clustering
Metode K Means ini memiliki beberapa kelebihan, diantaranya.
- Proses pembelajaran membutuhkan waktu yang relatif cepat.
- Sangat umum digunakan sebagai teknik clustering.
- Mudah beradaptasi dengan contoh baru.
- Tersedia di berbagai tools dan software.
Kekurangan K Means Clustering
Seperti metode lain metode ini juga memiliki kekuranga, diantaranya sebagai berikut.
- Cluster model berbeda ditemukan.
- Sulit untuk memilih jumlah cluster yang tepat.
- Overlapping.
- Cukup sulit jika digunakan untuk mecari jarak dari data yang berdimensi banyak.
Contoh Penerapan K Means Clustering
K means sudah banyak diterapkan pada industri, algortima ini digunakan untuk mesin rekomendasi, pengelompokan dokumen hingga segmentasi gamber.
Berikut adalah beberapa penerapan K means clustering.
- Mengidentifikasi data kanker.
- Pengelompokan aset IT.
- Kompresi gambar.
- Segmentasi gambar.
- Pengelompokan dokumen.
- Deteksi penipuan asuransi.
Kesimpulan
Nah, dari pembelajaran kita di atas dapat disimpulkan K Means Clustering merupakan metode yang termasuk pada clustering non-hirarki dimana setiap objek yang masuk dalam kelompok (cluster) adalah objek-objek yang sama dan berkorelasi. Sebelum menerapkan algortima ini kamu harus memperhatikan jenis variabel yang akan dianalisa karena K means lebih cocok diterapkan pada variabel data numerik.
Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..