Decision Tree merupakan salah satu algoritma yang digunakan untuk membangun model mechine learning (data mining) dalam bentuk struktur pohon. Algoritma ini termasuk ke dalam kategori supervised learning dan biasanya digunakan untuk masalah klasifikasi. Namu demikian, Decision Tree juga dapat digunakan untuk menangani masalah regresi.
Nah, pada kesempatan ini kita akan belajar lebih mendalam mengenai apa itu Decision Tree, jenis, kelebihan, kekurangan dan cara kerjanya.
Pengertian Decision Tree
Decision Tree atau sering kita dengar dengan istilah Pohon Keputusan merupakan teknik model prediksi yang dapat digunakan untuk klasifikasi dan prediksi tugas. Decision Tree menggunakan teknik “membagi dan menaklikkan” untuk membagi ruang pencarian masalah menjadi himpunan masalah.
Tujuan dari Decision Tree adalah untuk membuat sebuah model yang dapat digunakan untuk memprediksi class atau niali dari variabel target dengan mempelajari aturan pengambilan keputusan sederhana yang disimpulkan dari data sebelumnya.
Algoritma ini memiliki dua node yaitu.
- Decision node, digunakan untuk membuat keputusan berdasarkan fitur dari dataset yang diberikan.
- Leaf node, digunakan untuk mewakili output atau hasil keputusan dari decision node.
Jenis Pohon Keputusan
Terdapat dua jenis utama pohon keputusan, yaitu.
1. Classification Tree
Sebuah pohon keputusan variabel kategori termasuk variabel target kategoris yang dibagi dalam kategori.
Contoh, memiliki kategori bisa iya atau tidak. Kategori berarti bahwa setiap proses keputusan jatuh ke dalam salah satu kategori dan tidak ada diantaranya.
2. Regression Tree
Pohon keputusan variabel kontinu merupakan pohon keputusan dengan variabel target kontinu.
Contohnya, pendapataan individu yang pendapatannya tidak diketahui dapat diprediksi berdasarkan informasi yang tersedia seperti umur, pekerjaan dan variabel kontinu lainnya.
Istilah-Istilah Penting Pada Decision Tree
Berikut adalah istilah yang harus kamu ketahui dalam belajar Decision Tree.
1. Root Node (Akar)
Root node adalah node yang paling tinggi di dalam struktur pohon keputusan dan tidak memiliki parent node. Node ini merupakan atribut global dan mewakili keseluruhan sampel. Root node bisa memiliki dua atau lebih sub-node dan ditentukan berdasarkan hasil dari Attribute Selection Measure (ASM).
2. Sub Tree/ Branch (Ranting)
Branch merupakan sebuah cabang dari keseluruhan pohon. Jika kamu kurang jelas, kamu dapat melihat dari gambar sebelumnya.
3. Decision Node
Decision node merepresentasikan fitur-fitur atau atribut-atribut di dataset dan digunakan untuk membuat keputusan.
4. Leaf Node (Daun)
Leaf node (daun) merupakan hasil atau output dari keputusan yang tidak memiliki cabang lebih lanjut.
5. Parent and Child Node
Node yang memiliki cabang lagi disebut parent node, sedangkan node cabang yang dimaksud disebuht dengan child node dari parent node tersebut.
6. Pruning
Prining disini berati menghapus sebuah branch yang berlebihan, tidak digunakan dan menggantikannya dengan leaf node (daun). Teknik ini berfungsi untuk membatu mencegah overfitting pada data latih sehingga model bekerja dengan baik pada data baru (unseen data).
7. Information Gain
Information gian merupakan ukuran seberapa banyak fitur memberikan informasi tentang sebuah class atau target. Ini merupakan salah satu metode Attribute Selection Measure (ASM) untuk menentukan seberapa baik sebuah fitur untuk dijadikan decision node.
8. Entropy
Entropi merupakan metrik teori informasi yang digunakan untuk mengukur ketidak murnian (impurity) atau ketidak pastian (uncertainty) di dalam sebuah kelompom pengamatan. Entropy menentukan bagaimana Decesion Tree membagi data.
Cara Kerja Decision Tree
Algoritma Decision Tree dimulai dari simpul akar pohon. Algoritma ini membandingkan nilai atribut root dengan atribut record. Bedasarkan perbandingan tersebut, algoritma akan menelusuri cabang dan menuju ke simpul berikutnya.
Pada simpul berikutnya, algoritma kembali membandingkan nilai dengan sub-simpul (sub-tree) lainnya dan bergerak menuju simpul yang lebih dalam. Tujuannya untuk melanjutkan proses sampai mencapai lead node.
Berikut langkah-langkah yang terdapat pada algoritma ini.
- Mulai dari simpul akar, misalkan S berisi dataset lengkap.
- Pilih atribut terbaik dalam dataset menggunakan Attribute Selection Measure (ASM). ASM yang digunakan bisa Gian atau Gini Index.
- Pisahkan himpunan S menjadi himpunan bagian yang berisi kemungkinan nilai untuk atribut terbaik.
- Buat simpul Decision Tree yang berisikan atribut terbaik.
- Buat simpul Decision Tree baru secara rekursif menggunakan himpunan baigan dari kumpulan data yang dibuat pada langkah ke-3. Kemudian dilanjutkan proses ini sampai tahap terakhir dimana kita tidak dapat mengklasifikasi simpul lebih lanjut. Simpul ini yang menjadi akhir atau disebut leaf node.
Contoh Penerapan Decision Tree
Beberapa contoh penerapan Decision Tree yaitu.
1. Prospek Pertumbuhan
Melibatkan evaluasi peluang pertumbuhan prospektif bisnis berdasarkan data histori. Dengan data histori penjualan, algoritma dapat menghasilkan keputusan perubahan dalam strategi bisnis yang bisa membantu pertumbuhan.
2. Mencari Calon Client
Algoritma ini dapat digunakan untuk menukan calon client dengan menggunakan data demografis. Dengan menerapkan algoritma ini perusahaan bisa menghemat anggaran pemasaran dan dalam membuat keputusan yang tepat tentang pasar sasaran yang menjadi forkus bisnis.
3. Menganalisa Credit Scoring
Menganalisa credit scoring terdapat di dalam industri perbankan. Algoritma ini digunakan untuk memprediksi resiko kemungkinan peminjam gagal membayarkan pinjaman.
Kelebihan
- Menghilangkan perhitungan-perhitungan yang tidak dibutuhkan.
- Bersifat fleksibel, memilih fitur dari internal node yang berbeda, fitur yang terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama. Kefleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan metode perhitungan satu tahap yang lebih konvensional.
- Proses data cleaning cenderung lebih sedikit, kasus nilai yang hilang dan outlier kuran gsignifikat pada data decision tree.
- Mampu memilih opsi yang terbaik dari seluruh opsi yang tersedia.
Kekurangan
- Pengakumulasian jumlah eror dari setiap tingkat dalam sebuah pohon keputusan yang besar.
- Kesulitan dalam mendesain pohon keputusan yang optimal.
- Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan sangat tergantung pada bagaimana pohon keputusan tersebut didesain.
Kesimpulan
Pada pemabahasan kita di atas dapat kita simpulkan bahwa Decision Tree adalah model visual yang membantu kita memahami dan mengambil keputusan berdasarkan serangkaian pertanyaan dan pilihan. Dengan kemampuannya untuk memecah masalah kompleks menjadi langkah-langkah yang lebih sederhana, Decision Tree digunakan dalam pemodelan prediktif, pengambilan keputusan dan pengenalan pola.
Keuntungan utama dari Decision Tree adalah kemampuannya untuk memberikan transparansi dalam proses pengambilan keputusan, yang sangat penting dalam konteks bisnis dan keputusan klinis. Selain itu, Decision Tree adalah alat yang relatif mudah digunakan dan dapat memberikan hasil yang akurat dalam banyak kasus.
Namun, kelemahannya termasuk kecenderungan untuk overfitting jika tidak diatur dengan baik dan keterbatasannya dalam menangani data yang kompleks dan berdimensi tinggi.
Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kita bahas silahkan komen di bawah ya.