Bagaimana cara kerja Recursive Feature Elimination?

Cara kerja RFE dimulai dengan melatih model menggunakan seluruh fitur, lalu menghitung nilai feature importance. Fitur dengan kontribusi terendah akan dihapus, kemudian model dilatih ulang dengan fitur yang tersisa. Proses ini berulang hingga jumlah fitur sesuai target.

Apa kekurangan Recursive Feature Elimination?

Kekurangan utama RFE adalah waktu komputasi yang relatif lama karena prosesnya dilakukan berulang kali. Pada dataset dengan ribuan fitur, proses ini bisa menjadi sangat berat dan memerlukan sumber daya komputasi yang besar.

Apa kelebihan Recursive Feature Elimination?

Kelebihan RFE adalah kemampuannya melakukan seleksi fitur berbasis performa model secara langsung. Dengan pendekatan iteratif, metode ini cenderung menghasilkan subset fitur yang lebih relevan dan meningkatkan interpretabilitas model.

Kapan sebaiknya menggunakan RFE dalam machine learning?

RFE sebaiknya digunakan ketika dataset memiliki banyak fitur dan terdapat indikasi bahwa tidak semua fitur berkontribusi signifikan terhadap target. Teknik ini cocok untuk proyek klasifikasi maupun regresi yang membutuhkan optimasi akurasi dan interpretabilitas model.

Recursive Feature Elimination (RFE) dalam Machine Learning

Dalam dunia machine learning, kualitas model tidak hanya ditentukan oleh algoritma yang digunakan, tetapi juga oleh fitur (feature) yang menjadi inputnya. Banyak pemula sering berpikir semakin banyak fitur maka semakin baik performa model. Padahal kenyataannya tidak selalu demikian. Terlalu banyak fitur justru bisa membuat model menjadi kompleks, lambat, dan rentan terhadap overfitting. Di sinilah teknik feature selection memainkan peran penting.

Salah satu metode feature selection yang populer dan sering digunakan oleh praktisi data science adalah Recursive Feature Elimination (RFE). Teknik ini bekerja dengan cara mengeliminasi fitur secara bertahap hingga tersisa fitur yang paling relevan. Bagi mahasiswa IT, maupun peneliti akademis, memahami RFE bukan hanya soal teori, tetapi juga bagaimana metode ini dapat meningkatkan performa model secara signifikan dalam proyek nyata. Artikel ini akan membahas RFE secara mendalam, mulai dari konsep dasar hingga implementasi praktis.

Daftar Isi

Apa Itu Feature Selection?

Feature Selection adalah proses memilih sebagian fitur terbaik dari sekumpulan fitur yang tersedia dalam dataset. Tujuannya sederhana yaitu mempertahankan fitur yang paling relevan dan membuang fitur yang tidak memberikan kontribusi signifikan terhadap model.

Dalam praktiknya, dataset sering kali memiliki banyak kolom. Misalnya dataset kesehatan bisa memiliki puluhan bahkan ratusan parameter seperti usia, tekanan darah, kadar gula, riwayat penyakit, dan sebagainya. Tidak semua fitur tersebut benar-benar membantu model dalam membuat prediksi. Beberapa bahkan bisa menjadi noise.

Feature selection membantu dalam beberapa aspek penting:

Meningkatkan akurasi model
Dengan menghilangkan fitur yang tidak relevan, model dapat fokus pada informasi yang benar-benar penting.
Mengurangi kompleksitas model
Semakin sedikit fitur, semakin sederhana model yang dibangun.
Mempercepat proses training
Terutama pada dataset besar, pengurangan fitur sangat membantu efisiensi komputasi.

Secara umum, metode feature selection terbagi menjadi tiga kategori utama yaitu Filter Method, Wrapper Method, dan Embedded Method. RFE termasuk dalam kategori Wrapper Method karena menggunakan model tertentu untuk mengevaluasi pentingnya fitur.

Apa Itu Recursive Feature Elimination (RFE)?

Recursive Feature Elimination (RFE) adalah metode feature selection yang bekerja dengan cara membangun model secara berulang dan menghapus fitur dengan kontribusi paling kecil pada setiap iterasi.

Konsep “recursive” di sini berarti prosesnya dilakukan secara berulang (iteratif). RFE tidak langsung membuang banyak fitur sekaligus. Sebaliknya, ia menghapus fitur satu per satu atau beberapa sekaligus berdasarkan nilai feature importance yang dihasilkan oleh model.

Secara sederhana, alur kerjanya seperti ini:

Model dilatih menggunakan seluruh fitur.
Model mengevaluasi tingkat kepentingan masing-masing fitur.
Fitur dengan nilai terendah dihapus.
Proses diulang hingga jumlah fitur sesuai yang diinginkan.

Tujuan utama RFE adalah menemukan subset fitur terbaik yang memberikan performa model optimal. Karena berbasis model (model-based), hasilnya biasanya lebih akurat dibanding metode filter sederhana seperti korelasi atau chi-square.

RFE sangat cocok digunakan ketika jumlah fitur cukup banyak dan terdapat indikasi bahwa tidak semua fitur berkontribusi secara signifikan terhadap target variabel.

Cara Kerja Recursive Feature Elimination (RFE)

Untuk benar-benar memahami RFE, penting untuk melihat bagaimana mekanismenya berjalan secara sistematis. RFE bukan sekadar menghapus fitur secara acak, tetapi berdasarkan evaluasi performa model.

Berikut tahapan lengkap cara kerja RFE:

Melatih Model dengan Seluruh Fitur
Pada tahap awal, model machine learning (misalnya Logistic Regression atau SVM) dilatih menggunakan semua fitur yang tersedia dalam dataset.
Menghitung Feature Importance
Setelah model dilatih, sistem akan menghitung tingkat kepentingan setiap fitur. Pada model linear, biasanya dilihat dari besar kecilnya koefisien. Pada model berbasis pohon, dilihat dari nilai feature importance.
Menghapus Fitur dengan Nilai Terendah
Fitur dengan kontribusi paling kecil akan dieliminasi dari dataset.
Mengulangi Proses
Model dilatih ulang tanpa fitur yang sudah dihapus, lalu kembali mengevaluasi pentingnya fitur yang tersisa.
Berhenti Sesuai Target Jumlah Fitur
Proses berlanjut hingga mencapai jumlah fitur yang ditentukan.

Proses iteratif ini membuat RFE relatif lebih akurat dalam memilih fitur dibanding metode yang hanya melakukan seleksi satu kali saja.

Contoh Recursive Feature Elimination (RFE)

Agar lebih mudah dipahami, bayangkan sebuah dataset prediksi kelulusan mahasiswa dengan fitur berikut:

IPK
Kehadiran
Jumlah SKS
Aktivitas organisasi
Warna sepatu favorit

Secara logika, warna sepatu kemungkinan besar tidak relevan terhadap kelulusan. Namun model tidak langsung tahu hal tersebut sebelum dianalisis.

Misalnya langkah RFE berjalan seperti ini:

Model dilatih dengan semua fitur.
Ditemukan bahwa “Warna sepatu favorit” memiliki kontribusi paling kecil.
Fitur tersebut dihapus.
Model dilatih ulang.
Proses berlanjut hingga tersisa fitur paling signifikan seperti IPK dan Kehadiran.

Dari ilustrasi ini, terlihat bahwa RFE bekerja seperti proses seleksi alami—menyisakan yang paling kuat dan relevan.

Keunggulan pendekatan ini adalah berbasis data, bukan asumsi. Kadang fitur yang terlihat tidak penting justru memiliki korelasi tersembunyi yang signifikan.

Algoritma yang Bisa Digunakan Bersama RFE

RFE membutuhkan estimator atau model dasar untuk menentukan feature importance. Tidak semua algoritma cocok digunakan, tetapi beberapa sangat populer.

Logistic Regression
Cocok untuk klasifikasi biner. Koefisien model digunakan sebagai indikator pentingnya fitur.
Support Vector Machine (SVM)
Terutama SVM dengan kernel linear. Nilai bobot pada hyperplane dapat digunakan untuk evaluasi fitur.
Random Forest
Menggunakan nilai feature importance berbasis impurity atau Gini index. Cocok untuk dataset non-linear.
Linear Regression
Digunakan untuk kasus regresi. Koefisien regresi menunjukkan pengaruh masing-masing fitur.

Pemilihan algoritma sangat berpengaruh terhadap hasil seleksi fitur. Jika dataset bersifat non-linear, menggunakan model linear bisa menghasilkan seleksi fitur yang kurang optimal.

Parameter dalam Recursive Feature Elimination

Dalam implementasi RFE (misalnya menggunakan scikit-learn), terdapat beberapa parameter penting yang perlu dipahami.

1. n_features_to_select

Parameter ini menentukan jumlah fitur akhir yang ingin dipertahankan. Jika diatur ke angka tertentu, RFE akan berhenti ketika jumlah fitur tersisa sesuai nilai tersebut.

2. step

Menentukan jumlah fitur yang dihapus dalam setiap iterasi. Jika step=1, maka satu fitur dihapus setiap kali. Jika lebih besar, proses lebih cepat tetapi bisa kurang presisi.

3. estimator

Model dasar yang digunakan untuk mengevaluasi feature importance. Pemilihan estimator sangat menentukan kualitas seleksi fitur.

4. ranking_ dan support_

ranking_ menunjukkan peringkat masing-masing fitur.
support_ menunjukkan fitur mana yang terpilih (True) atau tidak (False).

Memahami parameter ini membantu dalam mengontrol proses seleksi fitur agar sesuai dengan kebutuhan proyek.

Kelebihan Recursive Feature Elimination

Seleksi berbasis performa model
Karena menggunakan model sebagai evaluator, hasilnya cenderung lebih relevan terhadap target prediksi.
Fleksibel terhadap berbagai algoritma
Bisa digunakan dengan berbagai model seperti Logistic Regression, SVM, dan Random Forest.
Meningkatkan interpretabilitas model
Dengan fitur yang lebih sedikit, model menjadi lebih mudah dipahami dan dijelaskan.

Kekurangan Recursive Feature Elimination

Waktu komputasi lebih lama
Karena dilakukan secara iteratif, RFE bisa memakan waktu lama terutama pada dataset besar.
Bergantung pada estimator
Jika model dasar kurang tepat, hasil seleksi fitur juga bisa kurang optimal.
Tidak selalu cocok untuk dataset sangat besar
Pada ribuan fitur, proses iteratif bisa menjadi sangat berat.

Perbandingan RFE dengan Metode Feature Selection Lain

Metode	Tipe	Kelebihan	Kekurangan
RFE	Wrapper	Akurat, berbasis model	Lambat
SelectKBest	Filter	Cepat	Tidak mempertimbangkan interaksi fitur
Lasso	Embedded	Otomatis seleksi fitur	Bergantung pada regularisasi
Tree Importance	Embedded	Cocok untuk non-linear	Bisa bias pada fitur tertentu

Dari tabel di atas, terlihat bahwa RFE unggul dalam akurasi seleksi karena mempertimbangkan performa model secara langsung. Namun, dari sisi efisiensi waktu, metode filter seperti SelectKBest lebih cepat.

Kesimpulan

Pada pembahasan kita di atas dapat kita simpulkan bahwa Recursive Feature Elimination (RFE) merupakan salah satu metode feature selection yang kuat dalam machine learning. Dengan pendekatan iteratif berbasis model, RFE mampu mengidentifikasi fitur paling relevan secara sistematis. Teknik ini sangat berguna ketika dataset memiliki banyak fitur dan terdapat kemungkinan fitur yang tidak relevan.

Jika digunakan dengan estimator yang tepat dan parameter yang sesuai, RFE dapat menjadi senjata penting dalam pipeline machine learning modern.

Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..