Bagaimana rumus umum Teorema Bayes digunakan dalam algoritma naive bayes?

Rumus Teorema Bayes digunakan untuk menghitung probabilitas masuknya suatu sampel dalam kelas tertentu (posterior), yaitu prior dikali likelihood, kemudian dibagi dengan evidence.

Bagaimana alur metode naive bayes dalam mengklasifikasikan data?

Alur metode naive bayes melibatkan menghitung nilai peluang kasus baru dari setiap hipotesa dengan class yang ada, menghitung nilai akumulasi peluang dari setiap kelas, dan menentukan class dari kasus baru berdasarkan nilai probabilitas.

Bagaimana menghitung probabilitas untuk data diskrit dalam naive bayes?

Probabilitas untuk data diskrit dihitung dengan mencari probabilitas kemunculan setiap nilai atribut dan mengalikan probabilitas tersebut sesuai dengan kondisi kasus yang diberikan.

Bagaimana menghitung probabilitas untuk data kontinu dalam naive bayes?

Untuk data kontinu, probabilitas dihitung menggunakan rumus Gaussian untuk mencari nilai likelihood, kemudian normalisasi dilakukan untuk mendapatkan nilai probabilitas akhir.

Bagaimana menghitung probabilitas akhir untuk data kontinu dalam naive bayes?

Probabilitas akhir untuk data kontinu dihitung dengan menggunakan rumus Gaussian untuk menghasilkan likelihood, dan kemudian normalisasi dilakukan untuk mendapatkan nilai probabilitas akhir.

Apa yang harus dilakukan jika terdapat atribut kontinu pada naive bayes?

Jika terdapat atribut kontinu, nilai P(Xi|C) diestimasi dengan menggunakan fungsi densitas Gaussian pada perhitungan naive bayes.

Belajar Naive Bayes: Rumus dan Contoh Perhitungan Naive Bayes

Ingin memahami rumus Naive Bayes, alur algoritma, dan contoh perhitungannya dengan mudah? Naive Bayes adalah algoritma machine learning yang digunakan untuk klasifikasi data berdasarkan probabilitas dari Teorema Bayes, dan sering digunakan dalam data mining karena sederhana namun efektif.

Pada artikel ini, kamu akan mempelajari secara lengkap bagaimana cara kerja algoritma Naive Bayes, mulai dari rumus dasar, alur perhitungan, hingga contoh kasus menggunakan data diskrit dan kontinu. Dengan memahami konsep ini, kamu bisa lebih mudah mengaplikasikan Naive Bayes dalam berbagai kasus seperti klasifikasi data, prediksi, hingga analisis keputusan.

Daftar Isi

Rumus dan Alur Algoritma Naive Bayes

Untuk bisa lebih memahami algoritma ini, berikut rumus umum Teorema Bayes yang menjadi dasar Naive bayes.

$P(C \mid X)=\frac{P(X \mid C)\cdot P(C)}{P(X)}$

Keterangan:

$X$ : sampel data dengan kelas tidak diketahui
$C$ : hipotesis bahwa $X$ adalah kelas tertentu
$P(C)$ : probabilitas prior dari kelas $C$
$P(X)$ : probabilitas evidence dari sampel $X$
$P(X \mid C)$ : likelihood data $X$ pada kelas $C$

Alur Naive Bayes menurut artikel Anda:

Hitung peluang kasus baru untuk setiap hipotesis kelas $P(C_i)$ .
Hitung akumulasi peluang likelihood $P(X \mid C_i)$ .
Hitung $P(X \mid C_i) \times P(C_i)$ .
Tentukan kelas dengan nilai tertinggi.

Namun, jika atribut ke- $i$ bersifat kontinu, maka nilai probabilitas $P(X_i \mid C)$ tidak dihitung dengan frekuensi, melainkan diestimasi menggunakan fungsi densitas probabilitas Gaussian (Distribusi Normal) sebagai berikut:

$P(X_i \mid C)=\frac{1}{\sqrt{2\pi}\,\sigma_C} \exp\left(-\frac{(X_i-\mu_C)^2}{2\sigma_C^2}\right)$

Keterangan:

$X_i$ = nilai atribut kontinu ke- $i$
$\mu_C$ = nilai rata-rata (mean) atribut pada kelas $C$
$\sigma_C$ = simpangan baku (standar deviasi) atribut pada kelas $C$

Rumus Teorema Bayes diatas tadi menjelaskan bahwa peluang masuknya sampel karakteristik tertentu dalam class C (posterior) adalah peluang munculnya kelas C ( sebelum masuknya sampel tersebut, sering kali disebut prior), dikali dengan peluang kemunculan karakteristik-karakteristik sampel pada class C (disebut juga likelihood) kemudian dibagi dengan peluang kemunculan karakteristik sampel secara global (disebut juga evidence). Oleh karena itu rumus dapat pula ditulis sebagai berikut.

$\text{Posterior} = \frac{\text{Prior} \times \text{Likelihood}}{\text{Evidence}}$

Nilai evidence selalu tetap untuk setiap class pada satu sampel. Nilai dari posterior tersebut nantinya akan dibandingkan dengan nilai posterior class lainnya untuk menentukan class apa suatu sampel akan diklasifikasikan.

Contoh Soal Data Diskrit

Berikut ini adalah contoh perhitungan naive bayes dengan menggunakan data diskrit.

Untuk menentukan suatu daerah akan dipilih sebagai lokasi untuk mendirikan perumahan dan telah dihimpun 10 aturan (data). Ada 4 atribut yang akan digunakan yaitu.

Harga tanah per meter persegi (C1).
Jarak daerah tersebut dari pusat kota (C2).
Ada atau tidaknya angkutan umum di daerah tersebut (C3).
Keputusan untuk memilih daerah tersebut sebagai lokasi perumahan (C4).

Dengan soal, suatu daerah dengan harga tanah mahal, jarak dari pusat kota sedang dan ada angkutan umum. Maka tentukan apakah daerah tersebut dipilih untuk mendirikan perumahan?

Aturan ke-	Harga tanah (C1)	Jarak dari pusat kota (C2)	Ada angkutan umum (C3)	Dipilih untuk Perumahan (C4)
1	Murah	Dekat	Tidak	Iya
2	Sedang	Dekat	Tidak	Iya
3	Mahal	Dekat	Tidak	Iya
4	Mahal	Jauh	Tidak	Tidak
5	Mahal	Sedang	Tidak	Tidak
6	Sedang	Jauh	Ada	Tidak
7	Murah	Jauh	Ada	Tidak
8	Murah	Sedang	Tidak	Iya
9	Mahal	Jauh	Ada	Tidak
10	Sedang	Sedang	Ada	Iya

Hal yang pertama kamu lakukan adalah mencari probabilitas kemunculan setiap nilai untuk atribut (class).

Probabilitas kemunculan setiap nilai untuk atribut Harga tanah (C1).

Harga tanah	Jumlah kejadian ‘dipilih’ Iya	Jumlah kejadian ‘dipilih’ Tidak	Probabilitas Iya	Probabilitas Tidak
Murah	2	1	2/5	1/5
Sedang	2	1	2/5	1/5
Mahal	1	3	1/5	3/5
Jumlah	5	5	1	1

Probabilitas kemunculan setiap nilai untuk atribut Jarak dari pusat kota (C2).

Jarak dari pusat kota	Jumlah kejadian ‘dipilih’ Iya	Jumlah kejadian ‘dipilih’ Tidak	Probabilitas Iya	Probabilitas Tidak
Dekat	3	0	3/5	0
Sedang	2	1	2/5	1/5
Jauh	0	4	0/5	4/5
Jumlah	5	5	1	1

Probabilitas kemunculan setiap nilai untuk atribut Ada angkutan umum (C3).

Ada angkutan umum	Jumlah kejadian ‘dipilih’ Iya	Jumlah kejadian ‘dipilih’ Tidak	Probabilitas Iya	Probabilitas Tidak
Ada	1	3	1/5	3/5
Tidak	4	2	4/5	2/5
Jumlah	5	5	1	1

Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk perumahan (C4)

Dipilih untuk perumahan	Jumlah kejadian ‘dipilih’ Iya	Jumlah kejadian ‘dipilih’ Tidak	Probabilitas Iya	Probabilitas Tidak
Jumlah	5	5	1/2	1/2

Berdasarkan data tersebut, apabila diketahui suatu daerah dengan harga tanah mahal, jarak dari pusat kota sedang dan ada angkutan umum, maka dapat dihitung:

Likelihood untuk Iya: $\text{Likelihood Iya} = \frac{1}{5}\cdot\frac{2}{5}\cdot\frac{1}{5}\cdot\frac{5}{10} = \frac{1}{125} = 0{,}008$

Likelihood untuk Tidak: $\text{Likelihood Tidak} = \frac{3}{5}\cdot\frac{1}{5}\cdot\frac{3}{5}\cdot\frac{5}{10} = \frac{9}{250} = 0{,}036$

Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1.

Normalisasi menjadi probabilitas: $P(\text{Iya}\mid X)=\frac{0{,}008}{0{,}008+0{,}036}=0{,}182$

$P(\text{Tidak}\mid X)=\frac{0{,}036}{0{,}008+0{,}036}=0{,}818$

Kesimpulan: Karena $P(\text{Tidak}\mid X) > P(\text{Iya}\mid X)$ , maka daerah tersebut tidak dipilih untuk perumahan.

Contoh Data Kontinu

Berikut ini kita akan lanjut dengan contoh perhitungan naive bayes menggunakan data kontinu.

Contoh untuk data kontinu kita adaptasi dari soal sebelumnya. Apabila C1 = 300, C2 = 17, C3 = Tidak, maka tentunkan apakah lokasi akan di bangun perumahan?

Aturan ke-	Harga tanah (C1)	Jarak dari pusat kota (C2)	Ada angkutan umum (C3)	Dipilih untuk Perumahan (C4)
1	100	2	Tidak	Iya
2	200	1	Tidak	Iya
3	500	3	Tidak	Iya
4	600	20	Tidak	Tidak
5	550	8	Tidak	Tidak
6	250	25	Ada	Tidak
7	75	15	Ada	Tidak
8	80	10	Tidak	Iya
9	700	18	Ada	Tidak
10	180	8	Ada	Iya

Hal yang pertama kamu lakukan adalah mencari probabilitas kemunculan setiap nilai untuk atribut (class).

Probabilitas kemunculan setiap nilai untuk atribut Harga tanah (C1).

	Iya	Tidak
1	100	600
2	200	550
3	500	250
4	80	75
5	180	700
Mean	212	435
Deviasi standar	168,8787	261,9637

Probabilitas kemunculan setiap nilai untuk atribut Jarak dari pusat kota (C2).

	Iya	Tidak
1	2	20
2	1	8
3	3	25
4	10	15
5	8	18
Mean	4,8	17,2
Deviasi standar	3,9623	6,3008

Untuk data yang diskrit kita ambil lansung nilainya dari tabel contoh soal perhitungan naive bayes dengan data diskrit supaya tidak berlama-lama. Berdasarkan hasil dari perhitungan dan soal tersebut, maka:

$f(C1 = 300 \mid ya) = \frac{1}{\sqrt{2\pi(168{,}8787)}} \, e^{-\frac{(300 – 212)^2}{2(168{,}8787)^2}} = 0{,}0021$

$f(C1 = 300 \mid tidak) = \frac{1}{\sqrt{2\pi(261{,}9637)}} \, e^{-\frac{(300 – 435)^2}{2(261{,}9637)^2}} = 0{,}0013$

$f(C2 = 17 \mid ya) = \frac{1}{\sqrt{2\pi(3{,}9623)}} \, e^{-\frac{(17 – 4{,}8)^2}{2(3{,}9623)^2}} = 0{,}0009$

$f(C2 = 17 \mid tidak) = \frac{1}{\sqrt{2\pi(6{,}3008)}} \, e^{-\frac{(17 – 17{,}2)^2}{2(6{,}3008)^2}} = 0{,}0633$

Ketika nilai C1 dan C2 sudah dapat dengan rumus Gaussian, jadi kita lanjut untuk mencari nilai likelihood.

$\text{Likelihood Iya} = (0{,}0021)\times(0{,}0009)\times\frac{4}{5}\times\frac{5}{10} = 0{,}000000756$

$\text{Likelihood Tidak} = (0{,}0013)\times(0{,}0633)\times\frac{2}{5}\times\frac{5}{10} = 0{,}000016458$

Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1.

$P(\text{Iya}) = \frac{0{,}000000756} {0{,}000000756 + 0{,}000016458} = 0{,}0439$

$P(\text{Tidak}) = \frac{0{,}000016458} {0{,}000000756 + 0{,}000016458} = 0{,}9561$

Maka dari hasil akhir kita dapat menyimpulkan bahwa pada lokasi tersebut tidak dibangun perumahan.

Penutup

Nah, sekarang kamu sudah lebih paham mengenai algoritma naive bayes. Kamu sudah mengerti bagaimana alur dan proses perhitungan yang terjadi di algoritma naive bayes.

Artikel ini merupakan bagian dari seri Kecerdasan Buatan KantinIT.com. Jika artikel ini bermanfaat, jangan lupa bagikan ke media sosial atau ke teman kamu.

What are You Looking For?

Belajar Naive Bayes: Alur Algoritma, Rumus dan Contoh Perhitungan Naive Bayes

Rumus dan Alur Algoritma Naive Bayes

Contoh Soal Data Diskrit

Contoh Data Kontinu

Penutup

Read Next

Belajar Analytical Hierarchy Process (AHP): Pengertian, Kelebihan, Kekurangan dan Cara Kerja AHP

Belajar Jaringan Syaraf Tiruan (JST): Pengertian, Arsitektur, Cara Kerja dan Jenis-Jenisnya

Belajar Case Based Reasoning (CBR): Pengertian, Penerapan dan Cara Kerjanya

Belajar Naive Bayes: Alur Algoritma, Rumus dan Contoh Perhitungan Naive Bayes

Rumus dan Alur Algoritma Naive Bayes

Contoh Soal Data Diskrit

Contoh Data Kontinu

Penutup

Read Next

Belajar Analytical Hierarchy Process (AHP): Pengertian, Kelebihan, Kekurangan dan Cara Kerja AHP

Belajar Jaringan Syaraf Tiruan (JST): Pengertian, Arsitektur, Cara Kerja dan Jenis-Jenisnya

Belajar Case Based Reasoning (CBR): Pengertian, Penerapan dan Cara Kerjanya

Subscribe to our Newsletter