Algoritma C4.5: Pengertian, Cara kerja dan Contoh Implementasi

algoritma c4 5

Dalam dunia data mining dan machine learning, Decision Tree menjadi salah satu metode yang paling populer karena mudah dipahami dan memiliki visualisasi yang jelas. Dari berbagai algoritma yang digunakan untuk membangun decision tree, salah satu yang paling terkenal adalah Algoritma C4.5, yang dikembangkan sebagai penyempurnaan dari algoritma sebelumnya yaitu ID3.

Seiring dengan banyaknya penerapan dalam berbagai bidang, muncul pertanyaan seperti apa itu algoritma C4.5, bagaimana cara kerjanya, dan bagaimana cara mengimplementasikannya dalam klasifikasi data. Memahami algoritma ini sangat penting karena C4.5 mampu menangani berbagai kondisi data seperti missing value dan data kontinu. Oleh karena itu, pada artikel ini kita akan membahas secara lengkap mulai dari pengertian, cara kerja, hingga contoh implementasi algoritma C4.5.

Apa Itu Algortima C4.5 ?

Algoritma C4.5 adalah algoritma klasifikasi dalam machine learning yang digunakan untuk membangun model prediksi berbasis decision tree (pohon keputusan). Algoritma ini bekerja dengan memilih atribut yang paling informatif untuk membagi data ke dalam kelas tertentu berdasarkan nilai information gain.

C4.5 merupakan pengembangan dari algoritma ID3 yang memiliki kemampuan lebih baik, seperti menangani missing value, data kontinu, serta melakukan pruning untuk mengurangi overfitting. Karena kemampuannya tersebut, algoritma ini banyak digunakan dalam berbagai aplikasi seperti klasifikasi data, prediksi, dan pengambilan keputusan berbasis data.

Baca Juga: Belajar Data Mining: Pengertian, Metode Dan Cara Kerja

Tahap Membuat Pohon Keputusan C4.5

Ada beberapa tahapan dalam membuat sebuah pohon keputusan dalam algoritma c45 yaitu.

Tahap 1

Mempersiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumunya atau disebuh dengan data masa lalu dan sudah dikelompokkan dalam kelas-kelas tertentu.

Tahap 2

Menghitung akar dari pohon. Akar akan mengambil dari atribut yang akan dipilih, dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling tinggi akan menjadi akar pertama.

Sebelum menghitung nilai gian dari atribut, hitung terlebih dahulu nilai entropy. Entropy adalah suatu parameter untuk mengukur tingkat beragaman (heterogenitas) dari kumpulan data. Jika nilai entropy semakin besar, maka tingkat keberagaman suatu kumpulan data semakin besar. Untuk menghitung nilai entropy digunakan rumus.

Entropy(S)=i=1npilog2(pi)\text{Entropy}(S) = – \sum_{i=1}^{n} p_i \cdot \log_2(p_i)

Keterangan:

  • SS = himpunan kasus
  • nn = jumlah partisi pada SS
  • pip_i ​ = proporsi subset SiS_i ​ terhadap seluruh SS

Tahap 3

Gian adalah ukuran efektifitas suatu variabel dalam mengklasifikasikan data. gian dari suatu variabel merupakan selisih antara nilai entropy total dengan entropy dari varibel tersebut. Menghitung nilai Gian menggunakan persamaan sebagai berikut.

Gain(S,A)=Entropy(S)    i=1nSiSEntropy(Si)\text{Gain}(S, A) = \text{Entropy}(S)\; – \;\sum_{i=1}^{n} \frac{|S_i|}{|S|}\cdot \text{Entropy}(S_i)

Keterangan:

  • SS = himpunan kasus total
  • AA = fitur/atribut yang dinilai
  • nn = jumlah partisi atribut AA
  • Si|S_i| = jumlah kasus pada partisi ke-ii
  • S|S| = jumlah total kasus dalam SS

Tahap 4

Ulangai langkah ke 2 dan langkah ke 3 hingga semua record terpartisi.

Tahap 5

Proses partisi pohon keputusan akan berhenti saat:

  • Semua semua record dalam simpul N mendapat kelas yang sama.
  • Tidak ada atribut di dalam record yang dipartisi lagi.

Tidak ada record di dalam cabang yang kosong.

Baca Juga: Belajar Decision Tree: Pengertian, Konsep, Penerapan dan Cara Kerjanya

Perbedaan Algoritma C4.5 dengan ID3

  1. Tahap (robust) terhadap noise, sehingga mencegah adanya.
  2. Mampu menangani variabel dengan tipe diskrit maupun kontinu.
  3. Mampu menangani variabel yang memiliki missing value.
  4. Dapat memangkas cabang dari pohon keputusan.

Kriteria Algoritma C4.5

Berikut merupakan kriteria utama dari algoritma c4.5:

  1. Atribute-Value Deescription
    Himpunan data yang digunakan untuk menganalisis harus dapat direpresentasikan dalam bentuk himpunan atribut. Tiap atribut dapat memiliki nilai diskrit maupun kontinu.
  2. Predefined Classes
    kategori yang akan diberikan kepada setiap sampel harus dituntukan terlebih dahulu.
  3. Kelas Diskrit
    Sebuah kasus atau sampel harus tergolong atau tidak tergolong ke dalam sebuah kelas tertentu dan jumlah sampel harus jauh lebih besar daripada jumlah kelas yang ada.
  4. Jumlah Data
    Jumlah data yang dibutuhkan dipengaruhi oleh jumlah atribut dan kelas serta kompleksitas dari model klasifikasi yang digunakan.
  5. Model Klasifikasi Logis
    Pendekatan induktif digunakan untuk membangun classifier yang dapat diekspresikan sebagai pohon keputusan atau aturan keputusan.

Baca Juga: Algoritma Adalah: Jenis, Fungsi dan Contoh

Kelebihan dan Kekurangan Algoritma C4.5

Algoritma C45 memiliki kekurangan dan kelebihan diantaranya seperti berikut.

Kelebihan Algoritma C4.5

  • Mampu menangani atribut yang kosong.
  • Mudah dipahami karena menggunakan representasi visual sebagai decision tree.
  • Dapat menangani atribut yang bersifat numerik dan kategori dengan baik.
  • Dapat menangani missing value dengan menggunakan teknik “Continuous Attribute Splitting“.
  • Dapat menangani overfitting dengan menggunakan teknik “Prunig”.

Kekurangan Algoritma C4.5

  • Cenderung membuat decision tree yang lebih panjang dibandingkan algoritma lainnya.
  • Tidak dapat menangani data berbentuk teks dengan baik.
  • Tidak dapat menangani data yang berskala ordinal dengan baik.

Contoh Implementasi Algoritma C4.5

Berikut adalah contoh beberapa implementasi algoritma C4.5.

1. Pemilihan tipe mobil

Algoritma C4.5 dapat digunakan untuk menentukan model yang dapat memprediksi tipe mobile yang sesuai dengan kebutuhan konsumen berdasarkan fitur seperti jumlah penumpang, harga, dan jarak tempuh. Model tersebut dapat membantu konsumen dalam memilih mobil yang sesuai dengan kebutuhannya.

2. Klasifikasi email

Algoritma C4.5 dapat digunakan untuk membuat model yang dapat memprediksi apakah sebuah email merupakan spam atau tidak berdasarkan fitur sepertik kata-kata yang terdapat dalam email tersebut. Model ini dapat membantu pengguna dalam menyaring email yang tidak diinginkan.

3. Prediksi penjualan produk

Algoritma C4.5 dapat digunakan untuk membuat model yang dapat memprediksi jumlah penjualan suatu produk berdasarkan fitur seperti harga, promosi dan cuaca. Model ini dapat membantu perusahaan dalam merencanakan produksi dan promosi yang tepat.

4. Klasifikasi dokumen

Algoritma ini dapat digunakan untuk membuat model yang dapat memprediksi kelas suatu dokumen berdasarkan fitur seperti kata-kata yang terdapat dalam dokumen tersebut. Model ini dapat digunakan untuk membantu pengguna mengelompokkan dokumen-dokumen berdasarkan kelas yang sesuai.

Baca Juga: Belajar Sistem Pendukung Keputusan (SPK): Pengertian, Komponen dan Cara Kerja Sistem Pendukung Keputusan

Kesimpulan

Dari pembelajaran kita di atas dapat kita simpulkan bahwa Algoritma C4.5 merupakan salah satu metode klasifikasi dalam machine learning yang menggunakan pendekatan decision tree untuk menghasilkan model prediksi yang akurat. Dengan memanfaatkan konsep entropy dan information gain, algoritma ini mampu memilih atribut terbaik untuk membagi data ke dalam kelas tertentu.

Memahami pengertian algoritma C4.5, cara kerja, serta kelebihan dan kekurangannya sangat penting dalam analisis data dan pengembangan sistem berbasis kecerdasan buatan. Dengan penerapan yang tepat, algoritma ini dapat digunakan dalam berbagai bidang seperti klasifikasi email, prediksi penjualan, hingga sistem rekomendasi berbasis data.

Artikel ini merupakan bagian dari seri Kecerdasan Buatan KantinIT.com. Jika artikel ini bermanfaat, jangan lupa bagikan ke media sosial atau ke teman kamu.

Subscribe to our Newsletter

Subscribe to our email newsletter to get the latest posts delivered right to your email.
Pure inspiration, zero spam ✨