data mining adalah

Belajar Data Mining: Pengertian, Metode Dan Cara Kerja

Data Mining istilah yang sering kita dengar ketika belajar Kecerdasan Buatan, Data Mining itu sendiri merupakan salah satu bagian dari Kecerdasan Buatan. Lantas apa itu Data Mining, bagaimana penerapan, proses, metode, manfaat, serta contohnya.

Pada artikel ini kita akan membahas secara detail mengenai Data Mining dari segi pengertian, proses, metode hingga kelebihannya. Yuk simak!

Pengertian Data Mining

data mining adalah

Knowledge Discovery in Database (KDD) atau sering kita dengar dengan Data Mining. KDD merupakan ilmu yang bisa digunakan dalam proses pencarian knowledge atau pengetahuan. Secara sederhana, data mining mengubah data mentah menjadi data ‘siap pakai’ untuk pengambilan keputusan.

Pada dasarnya data mining berhubung erat dengan analisa data dan penggunaan perangkat lunak untuk mencari pola dan kesamaan dalam sekumpulan data. Ide dasarnya sangat menggali sumber yang berharga dari tempat yang sama sekali tidak diduga seperti perangkat lunak data mining mengekstrasi pola yang sebelumnya tidak terlihat atau tidak begitu jelas sehingga tidak seorang pun yang memperhatikan sebelumnya.

Proses Data Mining

Tahapan proses data mining
Proses tahapan data mining

Diagram diatas menggambarkan beberapa proses atau tahap yang berlangsung dalam data mining. Fase awal dimulai dari data sumber dan berakhir dengan adanya informasi yang dihasilkan dari beberapa tahapan yaitu.

1. Seleksi Data

Seleksi data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses KDD, disimpan dalam suatu berkas, terpisah dari basis data operasional.

2. Pilihan Data (Pre-processing/ Cleaning)

Sebelum proses KDD dapat dilaksanakan, perlu dilakukan cleaning pada data yang menjadi fokus KDD.

Proses cleaning mencangkup antara lain membuang duplikasi data, memeriksa data yang inkonsisten dan memperbaiki kesalahan pada data, seperti kesahalan cetak.

Baca juga :   Dempster Shafer: Pengertian, Cara Kerja dan Implementasi

Pada tahapan ini terjadi juga proses enrichment yang merupakan proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relavan dan diperlakukan untuk KDD, seperti data atau informasi eksternal.

3. Transformasi

Coding merupakan proses transformasi pada data yang telah dipilih, sehingga tersebut sesuai untuk proses KDD. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.

4. Data Mining

Data Mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan tekknik atau metode tertentu. Teknik, metode atau algoritma dalam KDD sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Evaluasi (Interpretation)

Pola informasi yang dihasilkan dari proses KDD perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

Proses data mining dapat terjadi perulangan pada tahap-tahap tertentu. Pada setiap tahap dalam proses KDD, seorang analis dapat saja kembali ke tahap sebelumnya. Sebagai contoh pada saat coding atau data mining, analis menyadari proses cleaning belum dilakukan dengan sempurna, mungkin saja analis menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada.

Metode Data Mining

Data Mining model dibuat berdasarkan salah satu dari dua jenis pembelajaran supersived dan unsupervised. Fungsi pembelajaran supervised digunakan untuk struktur intrinsik, relasi dalam suatu data yang tidak memerlukan class atau label sebelum dilakukan proses pembelajaran.

Metode dapat diklasifikasikan berdasarkan fungsi yang dilakukan sebagai berikut.

1. Association Rules (Unsupervised)

Fungsi Association Rules seringkali disebut dengan “market basket analis”, yang digunakan untuk menentukan relasi atau korelasi diantara himpunan item-item. Fungsi ini paling banyak digunakan untuk menganalisa data dalam rangka keperluan strategi pemasaran, desain katalog dan proses pembuatan keputusan bisnis.

Baca juga :   Support Vector Machine (SVM): Pengertian, Jenis dan Cara Kerja

Aturan Association mengcapture item atau kejadian dalam data berukuran besar yang berisi data transaksi. Dengan kemajuan teknologi, data penjualan dapat disimpan dalam jumlah besar yang disebut dengan “basket data”. Aturan asosiasi yang didefinisikan pada basket data, digunakan untuk keperluan promosi, desain katalog, segmentasi kostumer dan target pemasaran.

2. Clustering (Unsupervised)

Clustering merupakan proses untuk mengelompokan data ke dalam beberapa cluster atau kelompok sehingga data dalam satu cluster memiliki tingkat kemiripan yang maksimum dan data antara cluster memiliki kemiripan yang minimum.

3. Classification (Supervised)

Classification merupakan metode yang paling umum digunakan dalam Data Mining. Metode ini mengklasifkasikan setiap kondisi dimana kondisi tersebut berisikan sekelompok atribute, salah satunya yaitu class attribute. Model Classification membutuhkan model yang dapat menjelaskan bahwa class atribut adalah fungsi dari input atribut. model classification yang digunakan akan menggunakan atribut lain untuk menemukan pola berdasarkan class tersebut.

4. Attribute Importance (Supervised)

Attribute Importance disebut juga dengan feature selection menyedikan solusi otomatis untuk meningkatkan kecepatan dan akurasi dari model klasifikasi yang dibungun pada table data yang memiliki jumlah atribut yang sangat banyak. Metode ini merangking atribut prediktif dengan melakukan eleminasi nilai yang redundant, tidak relavant atau tidak informative dan mengidentifikasi atribut predictor yang banyak paling berpangaruh dalam pengambilan keputusan.

Dengan menggunakan atribut yang lebih sedikit akan mereduksi waktu untuk membangun suatu model, juga dapat meningkatkan akurasi dari kemampuan prediksi. Jika terlalu banyak atribut yang dilibatkan maka akan banyak pula noise yang terlibat yang akan berpengaruh terhadap model karena dapat menurunkan performansi dan akurasi.

Penerapan Data Mining

Penerapan data mining cukup banyak, apalagi ditunjang kekayaan dan keaneragaman berbagai bidang ilmu (artificial intelligence, database, statistik, pemodelan matematika, pengolahan citra, dll). Berikut beberapa penerapanya.

1. Telekomunikasi

Salah satu perusahaan telekomunikasi menggunakan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual. Tujuanya untuk menambah layanan otomatis khusus untuk transaksi-transaksi yang masih dilayani secara manual.

Baca juga :   Unsupervised learning: Pengertian, Jenis dan Implementasi

2. Perbankan

Penerapan data mining di perbankan digunakan untuk memprediksi seberapa besar kemungkinan nasabah tidak dapat melunasi pinjaman, hal ini untuk meminimalisir resiko kerugian pada bank.

3. Edukasi

Penerapan di bidang edukasi untuk memahami karakteristik, minat dan bakat pada masing-masing siswa. Hal ini bertujuan untuk mengetahui pola pembelajaran yang terbaik untuk siswa.

4. Asuransi

Penerapan pada asuransi digunakan untuk memahami minat dan kebutuhan nasabah. Sehingga, perusahaan asuransi bisa memberikan penawaran yang menarik bagi nasabah. Selain itu, penerapan pada asuransi untuk mendeteksi penipuan dan risiko pada pengajuan klaim asuransi.

Manfaat Data Mining

Manfaat KDD dapat dilihat dari dua sudut pandang, yaitu sudut pandang komersial dan sudut pandang keilmuan. Data sudut pandang komersial, pemanfaatan KDD dapat digunakan dalam menangani meledaknya volume data seperti bagaimana menyimpan, mengestraknya serta memanfaatkannya.

KDD tidak hanya digunakan untuk menangani persoalan menumpuknya data atau informasi dan bagaimana mengumpulkanya tanpa kehilangan informasi yang penting. KDD juga diperlukan untuk menyelesaikan permasalahn atau menjawab kebutuhan bisnis, seperti.

  • Mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik.
  • Mengetahui hilangnya pelanggan karena pesaing
  • Memprediksi tingkat penjualan.
  • Mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain.
  • Menilai tingkat resiko dalam menentukan jumlah produksi suatu item.
  • Memprediksi prilaku bisnis dimasa mendatang.

Dari sudut pandang keilmuan, KDD dapat digunakan untuk mengcapture, menganalisis serta menyimpan data yang bersifat real-time dan sangat besar, seperti.

  1. Telescope, digunakan untuk memindai langit atau angkasa.
  2. Remote sensor, ditempatkan pada suatu satelit.
  3. Simulasi saintifik, membangkitkan data dalam ukuran terrabytes.

Kesimpulan

Pada pembahasan kita di atas dapat kita simpulkan bahwa Data mining adalah proses penggalian dan analisis data yang bertujuan untuk mengungkap pola, informasi dan pengetahuan yang tersembunyi dalam dataset yang besar. Ini bukan hanya tentang menemukan fakta-fakta yang telah ada, tetapi juga tentang menemukan wawasan yang mungkin tidak terlihat secara langsung.

Teknik-teknik KDD termasuk klastering, klasifikasi, asosiasi dan regresi. Masing-masing memiliki peran dan aplikasi yang berbeda, dan digunakan tergantung pada tujuan analisis dan karakteristik dataset.

Aplikasi data mining sangat beragam, dari pemahaman perilaku pelanggan dalam bisnis hingga penelitian ilmiah dalam kedokteran dan ilmu sosial. Dalam bisnis, data mining digunakan untuk mengoptimalkan strategi pemasaran, meningkatkan pengambilan keputusan dan mendukung pengembangan produk.

Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..