algoritma c4 5

Algoritma C4.5: Pengertian, Cara kerja dan Contoh Implementasi

Decision Tree memiliki salah satu algoritma yang bernama Algoritma C4.5, sebenarnya algoritma ini apa dan bagaimana cara implementasikannya.

Nah, pada artikel ini kita akan belajar lebih dalam mengenai algoritma C4.5 agar dapat mengimplementasikannya.

Pengertian Algortima C4.5

Algoritma C4.5 merupakan algoritma klasifikasi yang digunakan untuk membuat model prediksi berdasarkan data yang telah dikategorikan. Algoritma ini merupakan salah satu algoritma yang paling polpuler dalam data mining (machine learning) dan sering digunakan dalam aplikasi industri.

C4.5 menggunakan teknik pembelajaran decision tree untuk membangun model klasifikasi dan membuat decision tree dengan menemukan atribut yang paling informatif untuk memisahkan data ke dalam kelas-kelas yang berbeda. Algoritma ini menggunakan metode “Information Gain” untuk menentukan atribut yang paling informatif, yang merupakan ukuran seberapa banyak informasi yang diberikan oleh atribut tersebut untuk memisahkan data ke dalam kelas-kelas yang berbeda.

Algoritma ini merupakan pengembangan dari algoritma ID3, dimana pengembangan dilakukan untuk bisa mengatasi missing data, bisa mengatasi data kontinu dan pruning.

Tahap Membuat Pohon Keputusan C4.5

Ada beberapa tahapan dalam membuat sebuah pohon keputusan dalam algoritma c45 yaitu.

Tahap 1

Mempersiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumunya atau disebuh dengan data masa lalu dan sudah dikelompokkan dalam kelas-kelas tertentu.

Baca juga :   Blockchain Adalah: Cara Kerja, Struktur dan Komponen

Tahap 2

Menghitung akar dari pohon. Akar akan mengambil dari atribut yang akan dipilih, dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling tinggi akan menjadi akar pertama.

Sebelum menghitung nilai gian dari atribut, hitung terlebih dahulu nilai entropy. Entropy adalah suatu parameter untuk mengukur tingkat beragaman (heterogenitas) dari kumpulan data. Jika nilai entropy semakin besar, maka tingkat keberagaman suatu kumpulan data semakin besar. Untuk menghitung nilai entropy digunakan rumus.

menghitung nilai entropy c45
Rumus Entropy

Keterangan:

  • S = Himpunan kasus.
  • n = Jumlah partisi S.
  • ?? =Proporsi Si terhadap S.

Tahap 3

Gian adalah ukuran efektifitas suatu variabel dalam mengklasifikasikan data. gian dari suatu variabel merupakan selisih antara nilai entropy total dengan entropy dari varibel tersebut. Menghitung nilai Gian menggunakan persamaan sebagai berikut.

menghitung nilai gain c45
Rumus Gain

Keterangan:

  • S = Himpunan kasus.
  • A =  Fitur.
  • n = Jumlah partisi atribut A.
  • |Si| = Proporsi Si terhadap S.
  • |S| = Jumlah kasus dalam S.

Tahap 4

Ulangai langkah ke 2 dan langkah ke 3 hingga semua record terpartisi.

Tahap 5

Proses partisi pohon keputusan akan berhenti saat:

  • Semua semua record dalam simpul N mendapat kelas yang sama.
  • Tidak ada atribut di dalam record yang dipartisi lagi.

Tidak ada record di dalam cabang yang kosong.

Perbedaan Algoritma C4.5 dengan ID3

  1. Tahap (robust) terhadap noise, sehingga mencegah adanya.
  2. Mampu menangani variabel dengan tipe diskrit maupun kontinu.
  3. Mampu menangani variabel yang memiliki missing value.
  4. Dapat memangkas cabang dari pohon keputusan.

Kriteria Algoritma C4.5

1. Atribute-Value Deescription

Himpunan data yang digunakan untuk menganalisis harus dapat direpresentasikan dalam bentuk himpunan atribut. Tiap atribut dapat memiliki nilai diskrit maupun kontinu.

2. Predefined Classes

kategori yang akan diberikan kepada setiap sampel harus dituntukan terlebih dahulu.

Baca juga :   Belajar Kecerdasan Buatan (AI): Sejarah Kecerdasan Buatan

3. Kelas Diskrit

Sebuah kasus atau sampel harus tergolong atau tidak tergolong ke dalam sebuah kelas tertentu dan jumlah sampel harus jauh lebih besar daripada jumlah kelas yang ada.

4. Jumlah Data

Jumlah data yang dibutuhkan dipengaruhi oleh jumlah atribut dan kelas serta kompleksitas dari model klasifikasi yang digunakan.

5. Model Klasifikasi Logis

Pendekatan induktif digunakan untuk membangun classifier yang dapat diekspresikan sebagai pohon keputusan atau aturan keputusan.

Kelebihan dan Kekurangan Algoritma C4.5

Algoritma C45 memiliki kekurangan dan kelebihan diantaranya seperti berikut.

Kelebihan

  • Mampu menangani atribut yang kosong.
  • Mudah dipahami karena menggunakan representasi visual sebagai decision tree.
  • Dapat menangani atribut yang bersifat numerik dan kategori dengan baik.
  • Dapat menangani missing value dengan menggunakan teknik “Continuous Attribute Splitting“.
  • Dapat menangani overfitting dengan menggunakan teknik “Prunig”.

Kekurangan

  • Cenderung membuat decision tree yang lebih panjang dibandingkan algoritma lainnya.
  • Tidak dapat menangani data berbentuk teks dengan baik.
  • Tidak dapat menangani data yang berskala ordinal dengan baik.

Contoh Implementasi Algoritma C4.5

Berikut adalah contoh beberapa implementasi algoritma C4.5.

1. Pemilihan tipe mobil

Algoritma C4.5 dapat digunakan untuk menentukan model yang dapat memprediksi tipe mobile yang sesuai dengan kebutuhan konsumen berdasarkan fitur seperti jumlah penumpang, harga, dan jarak tempuh. Model tersebut dapat membantu konsumen dalam memilih mobil yang sesuai dengan kebutuhannya.

2. Klasifikasi email

Algoritma C4.5 dapat digunakan untuk membuat model yang dapat memprediksi apakah sebuah email merupakan spam atau tidak berdasarkan fitur sepertik kata-kata yang terdapat dalam email tersebut. Model ini dapat membantu pengguna dalam menyaring email yang tidak diinginkan.

3. Prediksi penjualan produk

Algoritma C4.5 dapat digunakan untuk membuat model yang dapat memprediksi jumlah penjualan suatu produk berdasarkan fitur seperti harga, promosi dan cuaca. Model ini dapat membantu perusahaan dalam merencanakan produksi dan promosi yang tepat.

Baca juga :   Algoritma Adalah: Jenis, Fungsi dan Contoh

4. Klasifikasi dokumen

Algoritma ini dapat digunakan untuk membuat model yang dapat memprediksi kelas suatu dokumen berdasarkan fitur seperti kata-kata yang terdapat dalam dokumen tersebut. Model ini dapat digunakan untuk membantu pengguna mengelompokkan dokumen-dokumen berdasarkan kelas yang sesuai.

Kesimpulan

Dari pembelajaran kita di atas dapat kita simpulkan bahwa Algoritma C4.5 merupakan algoritma klasifikasi yang digunakan untuk membuat model prediksi berdasarkan data yang telah dikategorikan. Algoritma C4.5 menggunakan teknik pembelajaran decision tree untuk membangun model klasifikasi dan membuat decision tree dengan menemukan atribut yang paling informatif untuk memisahkan data ke dalam kelas-kelas yang berbeda.

Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..