confusion matrix

Confusion Matrix: Pengertian, Cara Kerja dan Contoh Soal

Pada artikel ini kita akan belajar bagian dari data mining yaitu Confusion Matrix yang merupakan teknik untuk menghitung seberapa baik sebuah model dapat memprediksi label dari sebuah data.

Sebenarnya apasih Confusion Matrix itu? nah, kita akan belajar lebih mendalam mengenai teknik ini supaya kamu dapat menggunakannya.

Pengertian Confusion Matrix

Confusion Matrix merupakan sebuah teknik yang digunakan dalam data mining dan machine learning untuk menghitung seberapa baik sebuah model dapat memprediksi label dari sebuah data. Teknik ini sering digunakan dalam evaluasi model classification yang mana model harus memprediksi label dari sebuah data berdasarkan atribut-atribut yang ada.

Confusion Matrix adalah sebuah tabel yang menggambarkan seberapa sering model memprediksi label yang benar dan salah. Setiap baris dari tabel tersebut mewakili sebuah label aktual, sedangkan setiap kolom mewakili label yang diprediksi oleh model.

Hasil dari Confusion Matrix

Confusion Matrix membantu mengukur kinerja dimana ouput algoritma dapat berada dalam dua kategori atau lebih biasa disebut Positive atau NegativeYa atau Tidak. Setiap tabel terdiri dari empat sel, masing-masih mewakili kombinasi unik dari nilai prediksi atau aktual. Empat hasil potensial tersebut adalah.

tabel confused matrix
Sumber: medium.com

1. True Positive (TP)

Merupakan data positif yang diprediksi benar. Contohnya, pasien menderita hipertensi (class 1) dan model membuat prediksi bahwa pasien tersebut hipertensi (class 1).

Baca juga :   Entity Relationship Model (ERD): Pengertian dan Komponen

2. True Negative (TN)

Merupakan data negatif yang diprediksi benar. Contoh, pasien tidak mederita hipertensi (class 2) dan model membuat prediksi bahwa pasien tersebut tidak menderita hipertensi (class 2).

3. False Positive (FP) – Type I Error

Merupakan data negatif namun diprediksi sebagai data positif. Contoh, pasien tidak menderita hipertensi (class 2) tetapi model memprediksi pasien tersebut menderita hipertensi (class 1).

4. False Negative (FN) – Type II Error

Merupakan data positif namun diprediksi sebagai data negatif. Contohnya, pasien menderita hipertensi (class 1) tetapi model memprediksi pasien tersebut tidak menderita hipertensi (class 2).

Cara Menggunakan Confusion Matrix

Berikut ini cara menghitung metode evaluasi menggunakan Confusion Matrix.

Accuracy

Accuracy merupakan metode pengujian berdasarkan tingkat kedekatan antara nilai prediksi dengan nilai aktual. Dengan mengetahui jumlah data yang diklasifikasikan secara benar maka dapat diketahui akurasi hasil prediksi. 

accuracy confusend matrix

Precision

Precision merupakan metode pengujian dengan melakukan perbandingan jumlah informasi relevan yang didapatkan sistem dengan jumlah seluruh informasi yang terambil oleh sistem baik yang relevan maupun tidak.

precisio

Recall

Recall merupakan metode pengujian yang membandingkan jumlah informasi relevan yang didapatkan sistem dengan jumlah seluruh informasi relevan yang ada dalam koleksi informasi (baik yang terambil atau tidak terambil oleh sistem).

recall

F-Measure atau F1-Score

F-Measure atau disebut juga dengan F1-Score menggambarkan perbandingan rata-rata precision dan recall yang dibobotkan. Accuracy tepat kita gunakan sebagai acuan performansi algoritma jika data set kita memiliki jumlah data false negatif dan false positif yang sangat mendekati (symmetric). Namun jika jumlahnya tidak mendekati, maka sebaiknya kita menggunakan F1-Score.

f1 score confusend matrix

Contoh Soal Confusion Matrix

Berikut ini adalah contoh soal dari Confusion Matrix untuk model yang memprediksi label “Spam” atau “Not Spam”.

Baca juga :   Belajar Regresi Linear: Pengertian, Jenis dan Penerapannya
Prediksi “Spam”Prediksi “Not Spam”
Aktual “Spam”5010
Aktual “Not Spam”535

Dari tabel di atas, dapat dilihat bahwa model tersebut memprediksi 50 email spam dengan benar, namun terdapat 10 email yang sebenarnya bukan spam tapi diprediksi sebagai spam oleh model. Sebaliknya, model tersebut memprediksi 35 email yang sebenarnya bukan spam dengan benar, namun terdapat 5 email yang sebenarnya spam tapi diprediksi sebagai bukan spam oleh model.

Untuk perhitungan akurasi, presisi dan recall sebagai berikut.

  • Akurasi : (50 + 35) / (50 + 10 + 5 + 35) 85%
  • Presisi “Spam” : 50 / (50 + 5) = 91%
  • Recall “Spam” : 50 / (50+10) = 81%
  • Presisi “Not Spam” : 35 / (35 + 10) = 78 %
  • Recall “Not Spam” : 35 / (35 + 5) = 88%

Dari hasil di atas, dapat kita lihat bahwa model tersebut memiliki akurasi sebesar 85%, presisi sebesar 91% untuk memprediksi label Spam dan recall sebesar 83% untuk label Spam. Namun, untuk label Not Spam, Model tersebut hanya memiliki presisi sebesar 78% dan recall sebesar 88%.

Mengapa Confusion Matrix Penting?

Confusion matrix adalah alat yang sangat penting dalam evaluasi kinerja model machine learning karena memberikan wawasan yang lebih mendalam tentang bagaimana model kita berkinerja daripada hanya melihat akurasi saja. Beberapa alasan mengapa confusion matrix penting adalah:

  1. Mengatasi Ketidakseimbangan Kelas: Dalam beberapa masalah, kelas positif dan negatif mungkin memiliki distribusi yang tidak seimbang. Confusion matrix membantu kita melihat sejauh mana model mampu mengidentifikasi kelas minoritas.

  2. Memahami Jenis Kesalahan: Dengan melihat false positives dan false negatives, kita dapat memahami jenis kesalahan yang dibuat oleh model. Hal ini dapat membantu dalam pengambilan tindakan yang tepat untuk meningkatkan kinerja model.

  3. Menyesuaikan Threshold: Dalam beberapa kasus, kita dapat menyesuaikan ambang batas (threshold) untuk mengoptimalkan kinerja model. Confusion matrix dapat membantu kita memutuskan apakah perlu mengubah threshold atau tidak.

Baca juga :   Modem ADSL Adalah: Cara Kerja, Instalasi dan Perbedaan

Kesimpulan

Pada pembelajaran kita di atas dapat kita simpulkan bahwa Confusion Matrix merupakan sebuah teknik yang digunakan dalam data mining dan machine learning untuk menghitung seberapa baik sebuah model dapat memprediksi label dari sebuah data. Teknik ini sering digunakan dalam evaluasi model classification yang mana model harus memprediksi label dari sebuah data berdasarkan atribut-atribut yang ada.

Dengan memahami konsep matriks kebingungan dan metrik evaluasi yang berkaitan, kita dapat membuat model yang lebih baik dan mengambil tindakan yang sesuai untuk meningkatkan kinerjanya.

Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..