Naive Bayes berhubungan erat dengan klasifikasi dan machine learning (data mining). Pada artikel ini, kita akan belajar mengenai bagian dari Data Mining itu sendiri yaitu Algoritma Naive Bayes.
Nah, sebenarnya apasih Algoritma ini? Kita akan membahas dengan lebih rinci apa itu Algoritma Naive Bayes, tipe, kelebihan, kekurangan, tujuan serta penerapanya.
Pengertian Naive Bayes
Algoritma Naive Bayes merupakan salah satu algoritma yang terdapat pada teknik klasifikasi (Classification). Algoritma ini merupakan pengklasifikasian dengan metode probabilitas dan statistik yang ditemukan oleh Thomas Bayes, yaitu dengan memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya. Klasifikasi Naive Bayes diasumsikan bahwa ada atau tidak ciri tertentu dari sebuah class tidak ada hubunganya dengan ciri dari class lainnya.
Tipe Naive Bayes
Berikut tipe-tipe yang dapat diterapkan.
1. Multinominal Naive Bayes
Tipe Multinominal digunakan untuk mengklasifikasi kategori dokumen. Sebuah dokumen dapat dikategorikan bertema olahraga, teknologi, kesehatan atau lain-lain berdasarkan frekuensi kata-kata yang muncul dalam dokumen.
Fitur yang digunakan oleh classifier adalah frekuensi kata yang ada dalam dokumen. contohnya, jika suatu dokumen terus menerus menampilkan kata “goal”, “pertandingan”, “poin”, “liga”, maka dapat dimasukkan dalam kategori olahraga.
2. Bernoulli Naive Bayes
Tipe Bernoulli hampir mirip dengan tipe Multinominal, namun klasifikasinya lebih fokus pada hasil iya atau tidak. Prediktor yang di-input adalah variabel boolean dan parameter yang digunakan untuk memprediksi variabel class hanya mengambil nilai iya atau tidak.
Contoh, untuk dapat menentukan suatu dokumen masuk dalam kategori olahraga, bisa dengan mengidentifikasi apakah kata “goal” muncul atau tidak. Jika kata tersebut muncul, maka dokumen secara otomatis diklasifikasikan sebagai dokumen tentang olahraga. Begitupun sebaliknya.
3. Gaussian Naive Bayes
Gaussian merupakan asumsi pendistribusi nilai kontinu yang terkait dengan setiap fitur berisi nilai numerik. ketika diplot, akan muncul kurva berbentuk lonceng yang simentris tentang rata-rata nilai fitur.
Tujuan dan Penerapan
Meskipun terkadang tanpak terlalu sederhana, metode klasifikasi dengan algoritma ini sangat relevan dengan berbagai situasi di dunia nyata, Berikut penerapan serta tujuannya.
- Mendeteksi atau menyaring spam pada email, pesan, website atau lainnya.
- Dapat membuat diagnosa medis secara otomatis. Seperti pasien yang beresiko tinggi untuk penyakit dan kondisi tertentu seperti penyakit kanker, jantung dan lainnya.
- Mengklasifikasi dokumen teks seperti teks berita maupun teks akademis.
- Sebagai metode data mining (machine learning) yang menggunakan probabilitas.
- Pengenal wajah, dapat digunakan untuk mengidentifikasi wajah atau fitur lainnya, seperti mulut, hidung, mata dan lainnya.
- Dapat diterapkan untuk melakukan prediksi cuaca akan baik atau buruk.
Kelebihan
Adapun kelebihan yang dimiliki sebagai berikut.
- Tidak memerlukan jumlah data yang banyak.
- Mudah dipahami.
- Perhitungan cepat dan efisien.
- Tidak memerlukan data training yang banyak.
- Tidak memerlukan jumlah data yang banyak.
- Dapat digunakan dengan data kuantitatif maupun kualitatif.
- Jika ada nilai yang hilang, maka bisa diabaikan dalam bentuk perhitungan.
- Mudah di implementasikan kedalam sistem karena code-nya sederhana.
- Dapat digunakan untuk klasifikasi masalah biner ataupun multiclass.
Kekurangan
Adapun kekurangan yang dimiliki sebagai berikut.
- Keakuratannya tidak bisa diukur menggunakan satu probabilitas saja, membutuhkan bukti-bukti lain untuk memvalidasinya.
- Apabila probabilitas kondisionalnya bernilai nol, maka probabilitas prediksi juga akan bernilai nol.
- Asumsi bahwa masing-masing variabel independen membuat berkurangnya akurasi, disebabkan ada korelasi antara variabel yang satu dengan variabel yang lain.
Kesimpulan
Bedasarkan uraian di atas, dapat kita simpulkan bahwa Naive Bayes merupakan metode klasifikasi data berdasarkan faktor-faktor probabilitas. Salah satu alasan utama penggunaan algoritma ini adalah implementasinya yang cepat dan mudah, namun sayangnya algoritma ini membutuhkan fitur atau prediktor independen. Padahal dalam kenyataanya, prediktor lebih sering bersifat dependen dan dapat mengakibatkan menghambat kinerja.
Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..