Recursive Feature Elimination (RFE) dalam Machine Learning

Recursive Feature Elimination (RFE)

Dalam dunia machine learning, kualitas model tidak hanya ditentukan oleh algoritma yang digunakan, tetapi juga oleh fitur (feature) yang menjadi inputnya. Banyak pemula sering berpikir semakin banyak fitur maka semakin baik performa model. Padahal kenyataannya tidak selalu demikian. Terlalu banyak fitur justru bisa membuat model menjadi kompleks, lambat, dan rentan terhadap overfitting. Di sinilah teknik feature selection memainkan peran penting.

Salah satu metode feature selection yang populer dan sering digunakan oleh praktisi data science adalah Recursive Feature Elimination (RFE). Teknik ini bekerja dengan cara mengeliminasi fitur secara bertahap hingga tersisa fitur yang paling relevan. Bagi mahasiswa IT, maupun peneliti akademis, memahami RFE bukan hanya soal teori, tetapi juga bagaimana metode ini dapat meningkatkan performa model secara signifikan dalam proyek nyata. Artikel ini akan membahas RFE secara mendalam, mulai dari konsep dasar hingga implementasi praktis.

Apa Itu Feature Selection?

Feature Selection adalah proses memilih sebagian fitur terbaik dari sekumpulan fitur yang tersedia dalam dataset. Tujuannya sederhana yaitu mempertahankan fitur yang paling relevan dan membuang fitur yang tidak memberikan kontribusi signifikan terhadap model.

Dalam praktiknya, dataset sering kali memiliki banyak kolom. Misalnya dataset kesehatan bisa memiliki puluhan bahkan ratusan parameter seperti usia, tekanan darah, kadar gula, riwayat penyakit, dan sebagainya. Tidak semua fitur tersebut benar-benar membantu model dalam membuat prediksi. Beberapa bahkan bisa menjadi noise.

Feature selection membantu dalam beberapa aspek penting:

  1. Meningkatkan akurasi model
    Dengan menghilangkan fitur yang tidak relevan, model dapat fokus pada informasi yang benar-benar penting.
  2. Mengurangi kompleksitas model
    Semakin sedikit fitur, semakin sederhana model yang dibangun.
  3. Mempercepat proses training
    Terutama pada dataset besar, pengurangan fitur sangat membantu efisiensi komputasi.

Secara umum, metode feature selection terbagi menjadi tiga kategori utama yaitu Filter Method, Wrapper Method, dan Embedded Method. RFE termasuk dalam kategori Wrapper Method karena menggunakan model tertentu untuk mengevaluasi pentingnya fitur.

Apa Itu Recursive Feature Elimination (RFE)?

Recursive Feature Elimination (RFE) adalah metode feature selection yang bekerja dengan cara membangun model secara berulang dan menghapus fitur dengan kontribusi paling kecil pada setiap iterasi.

Konsep “recursive” di sini berarti prosesnya dilakukan secara berulang (iteratif). RFE tidak langsung membuang banyak fitur sekaligus. Sebaliknya, ia menghapus fitur satu per satu atau beberapa sekaligus berdasarkan nilai feature importance yang dihasilkan oleh model.

Secara sederhana, alur kerjanya seperti ini:

  1. Model dilatih menggunakan seluruh fitur.
  2. Model mengevaluasi tingkat kepentingan masing-masing fitur.
  3. Fitur dengan nilai terendah dihapus.
  4. Proses diulang hingga jumlah fitur sesuai yang diinginkan.

Tujuan utama RFE adalah menemukan subset fitur terbaik yang memberikan performa model optimal. Karena berbasis model (model-based), hasilnya biasanya lebih akurat dibanding metode filter sederhana seperti korelasi atau chi-square.

RFE sangat cocok digunakan ketika jumlah fitur cukup banyak dan terdapat indikasi bahwa tidak semua fitur berkontribusi secara signifikan terhadap target variabel.

Cara Kerja Recursive Feature Elimination (RFE)

Untuk benar-benar memahami RFE, penting untuk melihat bagaimana mekanismenya berjalan secara sistematis. RFE bukan sekadar menghapus fitur secara acak, tetapi berdasarkan evaluasi performa model.

Berikut tahapan lengkap cara kerja RFE:

  1. Melatih Model dengan Seluruh Fitur
    Pada tahap awal, model machine learning (misalnya Logistic Regression atau SVM) dilatih menggunakan semua fitur yang tersedia dalam dataset.
  2. Menghitung Feature Importance
    Setelah model dilatih, sistem akan menghitung tingkat kepentingan setiap fitur. Pada model linear, biasanya dilihat dari besar kecilnya koefisien. Pada model berbasis pohon, dilihat dari nilai feature importance.
  3. Menghapus Fitur dengan Nilai Terendah
    Fitur dengan kontribusi paling kecil akan dieliminasi dari dataset.
  4. Mengulangi Proses
    Model dilatih ulang tanpa fitur yang sudah dihapus, lalu kembali mengevaluasi pentingnya fitur yang tersisa.
  5. Berhenti Sesuai Target Jumlah Fitur
    Proses berlanjut hingga mencapai jumlah fitur yang ditentukan.

Proses iteratif ini membuat RFE relatif lebih akurat dalam memilih fitur dibanding metode yang hanya melakukan seleksi satu kali saja.

Contoh Recursive Feature Elimination (RFE)

Agar lebih mudah dipahami, bayangkan sebuah dataset prediksi kelulusan mahasiswa dengan fitur berikut:

  • IPK
  • Kehadiran
  • Jumlah SKS
  • Aktivitas organisasi
  • Warna sepatu favorit

Secara logika, warna sepatu kemungkinan besar tidak relevan terhadap kelulusan. Namun model tidak langsung tahu hal tersebut sebelum dianalisis.

Misalnya langkah RFE berjalan seperti ini:

  1. Model dilatih dengan semua fitur.
  2. Ditemukan bahwa “Warna sepatu favorit” memiliki kontribusi paling kecil.
  3. Fitur tersebut dihapus.
  4. Model dilatih ulang.
  5. Proses berlanjut hingga tersisa fitur paling signifikan seperti IPK dan Kehadiran.

Dari ilustrasi ini, terlihat bahwa RFE bekerja seperti proses seleksi alami—menyisakan yang paling kuat dan relevan.

Keunggulan pendekatan ini adalah berbasis data, bukan asumsi. Kadang fitur yang terlihat tidak penting justru memiliki korelasi tersembunyi yang signifikan.

Algoritma yang Bisa Digunakan Bersama RFE

RFE membutuhkan estimator atau model dasar untuk menentukan feature importance. Tidak semua algoritma cocok digunakan, tetapi beberapa sangat populer.

  1. Logistic Regression
    Cocok untuk klasifikasi biner. Koefisien model digunakan sebagai indikator pentingnya fitur.
  2. Support Vector Machine (SVM)
    Terutama SVM dengan kernel linear. Nilai bobot pada hyperplane dapat digunakan untuk evaluasi fitur.
  3. Random Forest
    Menggunakan nilai feature importance berbasis impurity atau Gini index. Cocok untuk dataset non-linear.
  4. Linear Regression
    Digunakan untuk kasus regresi. Koefisien regresi menunjukkan pengaruh masing-masing fitur.

Pemilihan algoritma sangat berpengaruh terhadap hasil seleksi fitur. Jika dataset bersifat non-linear, menggunakan model linear bisa menghasilkan seleksi fitur yang kurang optimal.

Parameter dalam Recursive Feature Elimination

Dalam implementasi RFE (misalnya menggunakan scikit-learn), terdapat beberapa parameter penting yang perlu dipahami.

1. n_features_to_select

Parameter ini menentukan jumlah fitur akhir yang ingin dipertahankan. Jika diatur ke angka tertentu, RFE akan berhenti ketika jumlah fitur tersisa sesuai nilai tersebut.

2. step

Menentukan jumlah fitur yang dihapus dalam setiap iterasi. Jika step=1, maka satu fitur dihapus setiap kali. Jika lebih besar, proses lebih cepat tetapi bisa kurang presisi.

3. estimator

Model dasar yang digunakan untuk mengevaluasi feature importance. Pemilihan estimator sangat menentukan kualitas seleksi fitur.

4. ranking_ dan support_

  • ranking_ menunjukkan peringkat masing-masing fitur.
  • support_ menunjukkan fitur mana yang terpilih (True) atau tidak (False).

Memahami parameter ini membantu dalam mengontrol proses seleksi fitur agar sesuai dengan kebutuhan proyek.

Kelebihan Recursive Feature Elimination

  • Seleksi berbasis performa model
    Karena menggunakan model sebagai evaluator, hasilnya cenderung lebih relevan terhadap target prediksi.
  • Fleksibel terhadap berbagai algoritma
    Bisa digunakan dengan berbagai model seperti Logistic Regression, SVM, dan Random Forest.
  • Meningkatkan interpretabilitas model
    Dengan fitur yang lebih sedikit, model menjadi lebih mudah dipahami dan dijelaskan.

Kekurangan Recursive Feature Elimination

  • Waktu komputasi lebih lama
    Karena dilakukan secara iteratif, RFE bisa memakan waktu lama terutama pada dataset besar.
  • Bergantung pada estimator
    Jika model dasar kurang tepat, hasil seleksi fitur juga bisa kurang optimal.
  • Tidak selalu cocok untuk dataset sangat besar
    Pada ribuan fitur, proses iteratif bisa menjadi sangat berat.

Perbandingan RFE dengan Metode Feature Selection Lain

MetodeTipeKelebihanKekurangan
RFEWrapperAkurat, berbasis modelLambat
SelectKBestFilterCepatTidak mempertimbangkan interaksi fitur
LassoEmbeddedOtomatis seleksi fiturBergantung pada regularisasi
Tree ImportanceEmbeddedCocok untuk non-linearBisa bias pada fitur tertentu

Dari tabel di atas, terlihat bahwa RFE unggul dalam akurasi seleksi karena mempertimbangkan performa model secara langsung. Namun, dari sisi efisiensi waktu, metode filter seperti SelectKBest lebih cepat.

Kesimpulan

Pada pembahasan kita di atas dapat kita simpulkan bahwa Recursive Feature Elimination (RFE) merupakan salah satu metode feature selection yang kuat dalam machine learning. Dengan pendekatan iteratif berbasis model, RFE mampu mengidentifikasi fitur paling relevan secara sistematis. Teknik ini sangat berguna ketika dataset memiliki banyak fitur dan terdapat kemungkinan fitur yang tidak relevan.

Jika digunakan dengan estimator yang tepat dan parameter yang sesuai, RFE dapat menjadi senjata penting dalam pipeline machine learning modern.

Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..

Write a Comment

Leave a Comment

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Subscribe to our Newsletter

Subscribe to our email newsletter to get the latest posts delivered right to your email.
Pure inspiration, zero spam ✨