Decision Tree memiliki salah satu algoritma yang bernama Algoritma C4.5, sebenarnya algoritma ini apa dan bagaimana cara implementasikannya.
Nah, pada artikel ini kita akan belajar lebih dalam mengenai algoritma C4.5 agar dapat mengimplementasikannya.
Pengertian Algortima C4.5
Algoritma C4.5 merupakan algoritma klasifikasi yang digunakan untuk membuat model prediksi berdasarkan data yang telah dikategorikan. Algoritma ini merupakan salah satu algoritma yang paling polpuler dalam data mining (machine learning) dan sering digunakan dalam aplikasi industri.
C4.5 menggunakan teknik pembelajaran decision tree untuk membangun model klasifikasi dan membuat decision tree dengan menemukan atribut yang paling informatif untuk memisahkan data ke dalam kelas-kelas yang berbeda. Algoritma ini menggunakan metode “Information Gain” untuk menentukan atribut yang paling informatif, yang merupakan ukuran seberapa banyak informasi yang diberikan oleh atribut tersebut untuk memisahkan data ke dalam kelas-kelas yang berbeda.
Algoritma ini merupakan pengembangan dari algoritma ID3, dimana pengembangan dilakukan untuk bisa mengatasi missing data, bisa mengatasi data kontinu dan pruning.
Tahap Membuat Pohon Keputusan C4.5
Ada beberapa tahapan dalam membuat sebuah pohon keputusan dalam algoritma c45 yaitu.
Tahap 1
Mempersiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumunya atau disebuh dengan data masa lalu dan sudah dikelompokkan dalam kelas-kelas tertentu.
Tahap 2
Menghitung akar dari pohon. Akar akan mengambil dari atribut yang akan dipilih, dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling tinggi akan menjadi akar pertama.
Sebelum menghitung nilai gian dari atribut, hitung terlebih dahulu nilai entropy. Entropy adalah suatu parameter untuk mengukur tingkat beragaman (heterogenitas) dari kumpulan data. Jika nilai entropy semakin besar, maka tingkat keberagaman suatu kumpulan data semakin besar. Untuk menghitung nilai entropy digunakan rumus.
Keterangan:
- S = Himpunan kasus.
- n = Jumlah partisi S.
- ?? =Proporsi Si terhadap S.
Tahap 3
Gian adalah ukuran efektifitas suatu variabel dalam mengklasifikasikan data. gian dari suatu variabel merupakan selisih antara nilai entropy total dengan entropy dari varibel tersebut. Menghitung nilai Gian menggunakan persamaan sebagai berikut.
Keterangan:
- S = Himpunan kasus.
- A = Fitur.
- n = Jumlah partisi atribut A.
- |Si| = Proporsi Si terhadap S.
- |S| = Jumlah kasus dalam S.
Tahap 4
Ulangai langkah ke 2 dan langkah ke 3 hingga semua record terpartisi.
Tahap 5
Proses partisi pohon keputusan akan berhenti saat:
- Semua semua record dalam simpul N mendapat kelas yang sama.
- Tidak ada atribut di dalam record yang dipartisi lagi.
Tidak ada record di dalam cabang yang kosong.
Perbedaan Algoritma C4.5 dengan ID3
- Tahap (robust) terhadap noise, sehingga mencegah adanya.
- Mampu menangani variabel dengan tipe diskrit maupun kontinu.
- Mampu menangani variabel yang memiliki missing value.
- Dapat memangkas cabang dari pohon keputusan.
Kriteria Algoritma C4.5
1. Atribute-Value Deescription
Himpunan data yang digunakan untuk menganalisis harus dapat direpresentasikan dalam bentuk himpunan atribut. Tiap atribut dapat memiliki nilai diskrit maupun kontinu.
2. Predefined Classes
kategori yang akan diberikan kepada setiap sampel harus dituntukan terlebih dahulu.
3. Kelas Diskrit
Sebuah kasus atau sampel harus tergolong atau tidak tergolong ke dalam sebuah kelas tertentu dan jumlah sampel harus jauh lebih besar daripada jumlah kelas yang ada.
4. Jumlah Data
Jumlah data yang dibutuhkan dipengaruhi oleh jumlah atribut dan kelas serta kompleksitas dari model klasifikasi yang digunakan.
5. Model Klasifikasi Logis
Pendekatan induktif digunakan untuk membangun classifier yang dapat diekspresikan sebagai pohon keputusan atau aturan keputusan.
Kelebihan dan Kekurangan Algoritma C4.5
Algoritma C45 memiliki kekurangan dan kelebihan diantaranya seperti berikut.
Kelebihan
- Mampu menangani atribut yang kosong.
- Mudah dipahami karena menggunakan representasi visual sebagai decision tree.
- Dapat menangani atribut yang bersifat numerik dan kategori dengan baik.
- Dapat menangani missing value dengan menggunakan teknik “Continuous Attribute Splitting“.
- Dapat menangani overfitting dengan menggunakan teknik “Prunig”.
Kekurangan
- Cenderung membuat decision tree yang lebih panjang dibandingkan algoritma lainnya.
- Tidak dapat menangani data berbentuk teks dengan baik.
- Tidak dapat menangani data yang berskala ordinal dengan baik.
Contoh Implementasi Algoritma C4.5
Berikut adalah contoh beberapa implementasi algoritma C4.5.
1. Pemilihan tipe mobil
Algoritma C4.5 dapat digunakan untuk menentukan model yang dapat memprediksi tipe mobile yang sesuai dengan kebutuhan konsumen berdasarkan fitur seperti jumlah penumpang, harga, dan jarak tempuh. Model tersebut dapat membantu konsumen dalam memilih mobil yang sesuai dengan kebutuhannya.
2. Klasifikasi email
Algoritma C4.5 dapat digunakan untuk membuat model yang dapat memprediksi apakah sebuah email merupakan spam atau tidak berdasarkan fitur sepertik kata-kata yang terdapat dalam email tersebut. Model ini dapat membantu pengguna dalam menyaring email yang tidak diinginkan.
3. Prediksi penjualan produk
Algoritma C4.5 dapat digunakan untuk membuat model yang dapat memprediksi jumlah penjualan suatu produk berdasarkan fitur seperti harga, promosi dan cuaca. Model ini dapat membantu perusahaan dalam merencanakan produksi dan promosi yang tepat.
4. Klasifikasi dokumen
Algoritma ini dapat digunakan untuk membuat model yang dapat memprediksi kelas suatu dokumen berdasarkan fitur seperti kata-kata yang terdapat dalam dokumen tersebut. Model ini dapat digunakan untuk membantu pengguna mengelompokkan dokumen-dokumen berdasarkan kelas yang sesuai.
Kesimpulan
Dari pembelajaran kita di atas dapat kita simpulkan bahwa Algoritma C4.5 merupakan algoritma klasifikasi yang digunakan untuk membuat model prediksi berdasarkan data yang telah dikategorikan. Algoritma C4.5 menggunakan teknik pembelajaran decision tree untuk membangun model klasifikasi dan membuat decision tree dengan menemukan atribut yang paling informatif untuk memisahkan data ke dalam kelas-kelas yang berbeda.
Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..
min saran judul untuk laporan PKL yang sesuai algoritma c4.5 dan decesion tree?yang belum diteliti
ini tergantung tempa pklnya sih mas, biasanya kalau pkl mirip mirip cuman beda studi kasusnya aja. Bisa juga kalau judul yang udah ada tapi dicoba pakai metode algoritma c45/tree nanti kesimpulan akhir bisa dibuat perbandingan dengan metode sebelumnya..