Regresi Logistik: Cara Kerja, Rumus, dan Contoh Penerapannya

Regresi Logistik

Regresi logistik adalah salah satu teknik analisis data yang paling sering dipakai oleh data scientist, mahasiswa IT, hingga peneliti akademis. Model ini digunakan untuk memprediksi sesuatu yang hasilnya berbentuk kategori, misalnya “iya atau tidak,” “spam atau tidak spam,” atau “lulus atau gagal.” Di era digital yang serba berbasis data, memahami regresi logistik terasa seperti memiliki kompas yang membimbing kamu dalam membaca pola, memprediksi perilaku pengguna, dan mengambil keputusan berbasis probabilitas.

Buat kamu yang pernah belajar machine learning atau statistika dasar, regresi logistik biasanya menjadi model klasifikasi pertama yang dipelajari karena konsepnya sederhana namun sangat kuat. Banyak sistem modern menggunakan teknik ini, mulai dari deteksi penipuan (fraud detection), klasifikasi teks, diagnosis penyakit, sampai rekomendasi produk. Di artikel ini, kita akan membahas regresi logistik secara mendalam namun tetap dengan bahasa yang sederhana, lengkap dengan contoh, tabel perbandingan, dan penjelasan yang relevan bagi kamu yang ingin mempelajari teknik ini.

Apa Itu Regresi Logistik?

Regresi logistik adalah metode statistik yang digunakan untuk memodelkan hubungan antara satu atau lebih variabel input (sering disebut fitur atau variabel independen) dengan hasil keluaran yang bersifat kategorikal (biasanya hanya dua kategori). Berbeda dari regresi linear yang menghasilkan nilai numerik kontinu, regresi logistik justru menghasilkan probabilitas nilai antara 0 sampai 1 yang kemudian dikonversi menjadi kategori tertentu. Misalnya, jika probabilitas lebih dari 0.5, maka hasilnya “positif,” dan jika kurang dari itu maka “negatif.”

Model ini disebut “logistik” karena menggunakan fungsi logit, yaitu transformasi matematika yang mengubah hubungan linear menjadi berbentuk kurva sigmoid. Kurva sigmoid memiliki bentuk seperti huruf S dan sangat cocok untuk menentukan keputusan biner. Konsep di balik regresi logistik terinspirasi dari teori peluang dan statistika klasik, dan telah dipakai sejak awal abad ke-20 dalam bidang biologi, kedokteran, dan kini merambah ke machine learning.

Perbedaan Regresi Logistik dan Regresi Linear

Perbedaannya bisa dilihat secara jelas pada tabel berikut:

Aspek PerbandinganRegresi LinearRegresi Logistik
Jenis OutputNumerik (kontinu)Kategori (biner atau multi-kelas)
Rentang Nilai-∞ hingga +∞0 hingga 1 (probabilitas)
Fungsi AktivasiTidak adaSigmoid atau Softmax
Contoh KasusMemprediksi harga rumahMengklasifikasi email spam/tidak
InterpretasiKoefisien menunjukkan perubahan nilaiKoefisien menunjukkan perubahan odds

Misalnya dalam dunia pemrograman, jika kamu memprediksi berapa lama waktu loading sebuah aplikasi, maka regresi linear cocok digunakan. Namun jika kamu ingin memprediksi apakah server akan down dalam 24 jam ke depan berdasarkan parameter tertentu, regresi logistik lebih tepat.

Kapan Regresi Logistik Digunakan?

Regresi logistik digunakan ketika keluaran yang ingin diprediksi berbentuk kategori.

Beberapa contoh kasus lain:

  • Prediksi churn pengguna: mengidentifikasi apakah pengguna akan berhenti menggunakan aplikasi.
  • Deteksi fraud: memprediksi transaksi mencurigakan berdasarkan pola tertentu.
  • Klasifikasi penyakit: memprediksi apakah pasien berisiko tinggi atau rendah.
  • Prediksi kelulusan: menentukan apakah mahasiswa berpotensi lulus berdasarkan riwayat nilai.

Regresi logistik tidak cocok digunakan ketika output berupa angka kontinu, atau ketika hubungan antar variabel tidak dapat dimodelkan secara logistik. Jika data memiliki pola non-linear yang kompleks, model seperti Random Forest, SVM, atau Neural Network lebih tepat digunakan. Namun untuk kebutuhan klasifikasi yang interpretatif dan efisien, regresi logistik tetap menjadi pilihan terbaik.

Jenis-Jenis Regresi Logistik

Regresi logistik bukan hanya satu jenis. Dalam statistika dan machine learning, regresi logistik terbagi menjadi tiga bentuk utama: regresi logistik biner, multinomial, dan ordinal.

1. Regresi Logistik Biner

Ini adalah jenis yang paling populer dan paling banyak dipelajari di awal. Regresi logistik biner digunakan ketika keluaran hanya memiliki dua kelas, misalnya seperti spam atau tidak, fraud atau tidak, positif atau negatif. Model ini sangat efisien dan cocok untuk dataset dengan jumlah fitur yang tidak terlalu besar. Keuntungan utamanya adalah interpretasi yang mudah karena probabilitas yang dihasilkan selalu antara 0 dan 1.

2. Regresi Logistik Multinomial

Berbeda dari regresi biner, regresi multinomial digunakan ketika kelas lebih dari dua dan tidak memiliki urutan. Contohnya, memprediksi jenis kendaraan (mobil, motor, bus), atau memprediksi kategori berita (teknologi, ekonomi, hiburan). Model ini biasanya menggunakan fungsi softmax untuk menghasilkan probabilitas untuk setiap kelas. Programmer sering memakai jenis ini ketika membangun sistem rekomendasi kategori konten.

3. Regresi Logistik Ordinal

Jenis ini digunakan ketika kelas memiliki urutan tertentu. Misalnya tingkat kepuasan pelanggan (buruk, cukup, baik, sangat baik). Data ordinal memiliki tingkatan, sehingga model ini memperhitungkan hubungan antar kelas. Jenis ini berguna dalam analisis UX, survei pengguna, atau prediksi skala penilaian.

Komponen Utama dalam Regresi Logistik

Agar regresi logistik bekerja dengan baik, terdapat beberapa komponen penting yang harus kamu pahami.

1. Variabel Independen (Features)

Ini adalah input yang digunakan model untuk memprediksi hasil. Misalnya umur, frekuensi login, jumlah klik, atau data numerik lain. Semakin relevan fitur, semakin akurat prediksinya. Di machine learning, proses memilih fitur terbaik disebut feature selection.

2. Variabel Dependen (Target)

Variabel ini adalah hasil klasifikasi yang ingin diprediksi. Pada regresi logistik biner, target biasanya berupa 0 dan 1. Misalnya 1 = churn, 0 = tidak churn. Karena output probabilitas, model akan menentukan nilai kategori berdasarkan threshold.

3. Fungsi Logit

Fungsi logit digunakan untuk mengubah hubungan linear menjadi probabilitas. Secara matematis, logit adalah log dari odds ratio. Fungsi ini memastikan regresi logistik tidak menghasilkan nilai prediksi di luar rentang 0–1. Tanpa fungsi logit, output model akan “liar”.

4. Koefisien Regresi

Setiap fitur memiliki koefisien yang menunjukkan seberapa kuat dan seberapa besar pengaruhnya terhadap hasil prediksi. Programmer sering menggunakan nilai koefisien untuk mengetahui mana fitur paling penting. Koefisien positif meningkatkan probabilitas, sedangkan koefisien negatif menurunkannya.

5. Threshold (Ambang Batas)

Untuk menentukan kategori, probabilitas harus dibandingkan dengan threshold. Umumnya threshold adalah 0.5, tetapi bisa diganti sesuai kebutuhan, misalnya 0.7 untuk mencegah false positive. Pengaturan threshold sangat penting dalam aplikasi seperti fraud detection.

Dengan memahami komponen ini, kamu lebih mudah membaca cara model membuat keputusan dan menemukan faktor-faktor yang mempengaruhi prediksi.

Rumus Regresi Logistik

Rumus regresi logistik pada dasarnya mengubah nilai linear menjadi probabilitas. Namun, jangan khawatir meskipun terlihat rumit, konsepnya sebenarnya cukup mudah dipahami jika dijelaskan dengan logika yang sederhana. Rumus dasarnya adalah:

p = 1 / (1 + e^(−(β0 + β1X1 + β2X2 + … + βnXn)))

Rumus tersebut menggunakan kombinasi linear dari fitur X1 sampai Xn, lalu melewatinya ke fungsi sigmoid. Dari fungsi tersebut muncul nilai probabilitas antara 0 dan 1. Semakin besar nilai linear di dalam kurung, semakin mendekati 1 hasil probabilitasnya. Semakin kecil, semakin mendekati 0.

Cara membaca rumusnya:

  • β0 adalah intercept, yaitu nilai awal sebelum fitur ditambahkan.
  • β1, β2, …, βn adalah koefisien yang menunjukkan seberapa besar pengaruh setiap fitur.
  • e adalah bilangan eksponensial (≈ 2,718), basis logaritma natural.

Sebagai contoh, bayangkan kamu ingin memprediksi apakah seorang pengguna berpotensi churn berdasarkan dua fitur jumlah login per minggu (X1) dan durasi penggunaan aplikasi (X2). Jika model menunjukkan:

β0 = −2.1
β1 = −0.3
β2 = 0.8

Maka rumusnya menjadi:

p = 1 / (1 + e^(−(−2.1 − 0.3X1 + 0.8X2)))

Hasil dari rumus ini menghasilkan probabilitas. Jika probabilitas di atas threshold (misalnya 0.5), pengguna diprediksi akan churn.

Cara Kerja Regresi Logistik

Proses bekerja regresi logistik cukup sistematis dan mudah dipahami, berikut tahapan lengkapnya:

  1. Menentukan Dataset
    Dataset berisi fitur (X) dan label (Y). Dataset harus bersih, tidak berisi duplikasi, dan memiliki fitur yang relevan. Untuk pemula, dataset dari Kaggle biasanya digunakan karena sudah terstruktur.
  2. Preprocessing dan Normalisasi Data
    Data harus dinormalisasi agar skala fitur tidak berbeda terlalu jauh. Contohnya, jika satu fitur bernilai 1–10 dan fitur lain bernilai 1–10.000, model bisa jadi bias.
  3. Training Model
    Model akan mencari nilai koefisien terbaik (β) menggunakan metode optimasi seperti Gradient Descent. Tujuannya adalah meminimalkan kesalahan prediksi.
  4. Menghitung Probabilitas
    Setelah koefisien ditemukan, setiap input dimasukkan ke dalam rumus regresi logistik untuk menghasilkan probabilitas.
  5. Menentukan Threshold
    Probabilitas dibandingkan dengan threshold. Misalnya threshold 0.5 berarti probabilitas > 0.5 dianggap sebagai kelas 1.
  6. Menghasilkan Prediksi
    Model mengeluarkan hasil klasifikasi berdasarkan probabilitas dan threshold yang telah ditentukan.

Kelebihan Regresi Logistik

Berikut beberapa kelebihan utamanya:

  1. Mudah Dipahami dan Diinterpretasikan
    Salah satu kekuatan terbesar regresi logistik adalah interpretasinya yang sangat mudah. Kamu bisa melihat setiap koefisien dan mengetahui hubungan antara fitur dan hasil prediksi. Jika koefisien positif, berarti fitur meningkatkan probabilitas kelas positif.
  2. Efisien dan Cepat Dilatih
    Karena model ini bersifat linear dan hanya membutuhkan komputasi ringan, proses training berlangsung sangat cepat, bahkan pada dataset besar.
  3. Cocok untuk Klasifikasi Biner
    Ketika tugas klasifikasi hanya dua kelas, regresi logistik bekerja sangat optimal dan sering mengalahkan model kompleks selama data tidak terlalu rumit.
  4. Tidak Membutuhkan Data yang Sangat Besar
    Berbeda dari neural network yang membutuhkan ribuan atau bahkan jutaan data untuk bekerja baik, regresi logistik bisa memberikan hasil yang stabil meskipun dataset berukuran kecil hingga menengah.
  5. Risiko Overfitting Relatif Rendah
    Dengan regularisasi (seperti L1 atau L2), regresi logistik dapat mengurangi risiko overfitting secara signifikan. Ini menjadikannya model yang “aman” digunakan untuk berbagai kasus pemula dan profesional.

Kekurangan Regresi Logistik

Walaupun regresi logistik punya banyak kelebihan, model ini juga memiliki keterbatasan yang perlu dipahami agar kamu tidak salah memilih algoritma.

  1. Tidak Cocok untuk Data yang Polanya Non-Linear
    Regresi logistik bekerja optimal pada data linear, yaitu ketika ada hubungan yang jelas antara fitur dan label. Jika data memiliki pola non-linear yang rumit, model ini akan kesulitan membuat prediksi akurat.
  2. Kurang Efektif untuk Dataset yang Sangat Besar dengan Fitur Banyak
    Ketika jumlah fitur sangat banyak (misalnya ribuan), regresi logistik bisa menjadi lambat atau kurang efektif karena harus menghitung koefisien untuk setiap fitur.
  3. Sensitif terhadap Outlier
    Karena regresi logistik menggunakan perhitungan linear, nilai outlier dapat mempengaruhi hasil model secara signifikan. Outlier bisa membuat model memberikan prediksi yang lebih bias atau tidak stabil, sehingga preprocessing wajib dilakukan.
  4. Hanya Menghasilkan Output Kategori, Bukan Nilai Kontinu
    Jika kamu ingin memprediksi nilai numerik seperti harga, durasi, atau jumlah tertentu, regresi logistik sama sekali tidak bisa digunakan.
  5. Tidak Cocok untuk Multi-Kelas yang Kompleks
    Meskipun regresi logistik punya versi multinomial, tetapi ketika jumlah kelas sangat banyak, performanya tidak sebaik model seperti random forest atau neural network. Perhitungannya menjadi lebih berat dan interpretasinya lebih rumit.

Contoh Kasus Penggunaan di Dunia Nyata

Berikut beberapa contoh penerapan nyata:

  1. Klasifikasi Email Spam
    Model mempelajari pola kata, asal email, dan metadata pesan untuk menentukan probabilitas apakah pesan tersebut mencurigakan. Jika probabilitas melewati threshold, email dipindahkan ke folder spam.
  2. Prediksi Churn Pengguna
    Aplikasi seperti e-commerce, aplikasi belajar, atau sosial media sering memprediksi apakah pengguna akan berhenti menggunakan layanan. Model ini menganalisis perilaku pengguna seperti durasi login, jumlah transaksi, atau frekuensi penggunaan fitur tertentu. Ini membantu tim produk merancang strategi agar pengguna tetap bertahan.
  3. Deteksi Fraud (Penipuan)
    Misalnya lokasi transaksi tiba-tiba berubah, nominal yang terlalu besar, atau pola belanja yang tidak biasa. Jika probabilitas fraud tinggi, transaksi bisa dipending sementara.
  4. Diagnosis Penyakit
    Dunia medis memanfaatkan regresi logistik untuk memprediksi apakah pasien memiliki risiko tertentu berdasarkan gejala dan data kesehatan. Model ini efektif untuk dua kategori seperti “risiko tinggi” dan “risiko rendah.”
  5. Prediksi Kelulusan Mahasiswa
    Universitas kadang menggunakan regresi logistik untuk memprediksi kelulusan berdasarkan nilai, jumlah SKS, dan keaktifan mahasiswa di kelas. Prediksi ini membantu dosen maupun program studi dalam memberikan bimbingan akademik.

Kesalahan Saat Menggunakan Regresi Logistik

Berikut beberapa kesalahan yang perlu dihindari:

  1. Tidak Menangani Multicollinearity
    Multicollinearity terjadi ketika dua atau lebih fitur sangat berkorelasi. Ini membuat koefisien menjadi tidak stabil dan model sulit menentukan fitur mana yang benar-benar penting.
  2. Tidak Melakukan Normalisasi Data
    Jika fitur memiliki skala yang berbeda jauh, model bisa bias terhadap fitur tertentu. Normalisasi sangat penting untuk membantu perhitungan gradien.
  3. Data Tidak Seimbang (Imbalanced Dataset)
    Misalnya 95% data adalah kelas 0 dan hanya 5% kelas 1. Jika ini terjadi, model bisa selalu memprediksi kelas mayoritas dan tetap terlihat “akurat.” Teknik seperti SMOTE, undersampling, atau penyesuaian threshold diperlukan.
  4. Tidak Menghapus Outlier
    Outlier bisa membuat garis keputusan model bergeser dan menurunkan akurasi. Outlier harus ditangani dengan preprocessing sebelum training.
  5. Menggunakan Terlalu Banyak Fitur Tanpa Seleksi
    Fitur yang tidak relevan bisa menyebabkan overfitting. Feature selection membantu model bekerja optimal.

Tips Mengoptimalkan Akurasi Model

Agar model regresi logistik bekerja maksimal, ada beberapa teknik optimasi yang bisa dilakukan.

  1. Pilih Fitur yang Relevan
    Fitur yang terlalu banyak justru mengganggu model. Gunakan metode seperti L1 regularization atau mutual information untuk memilih fitur terbaik.
  2. Gunakan Normalisasi dan Standarisasi
    Scaling membantu model melakukan perhitungan gradien lebih cepat dan lebih stabil.
  3. Gunakan Regularisasi L1 atau L2
    Regularisasi membantu mengurangi overfitting dan membuat koefisien lebih terkontrol.
  4. Gunakan Teknik Penanganan Data Tidak Seimbang
    SMOTE, class weighting, atau undersampling bisa meningkatkan performa model untuk prediksi kelas minoritas.
  5. Optimalkan Threshold
    Ubah threshold sesuai kebutuhan. Jika tujuanmu mengurangi false positive, threshold bisa dinaikkan.

Kesimpulan

Pada pembahasan kita di atas dapat kita simpulkan bahwa Regresi logistik adalah salah satu model klasifikasi paling penting dan paling banyak digunakan oleh programmer, mahasiswa IT, dan data scientist. Model ini sederhana namun sangat kuat, dapat digunakan dalam berbagai kasus seperti deteksi spam, prediksi churn, diagnosis penyakit, hingga deteksi fraud. Kelebihannya terletak pada interpretasi yang mudah, proses training yang cepat, dan hasil prediksi yang stabil. Namun model ini juga memiliki beberapa keterbatasan seperti ketidakmampuannya menangani data non-linear atau dataset yang sangat besar dengan banyak fitur.

Dengan memahami konsep dasar, cara kerja, kelebihan, kekurangan, dan penerapannya, kamu bisa memanfaatkan regresi logistik secara maksimal dalam berbagai proyek. Semakin kamu memahami model ini, semakin mudah kamu melangkah ke teknik machine learning yang lebih kompleks seperti neural network, decision tree, atau gradient boosting.

Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..

Write a Comment

Leave a Comment

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Subscribe to our Newsletter

Subscribe to our email newsletter to get the latest posts delivered right to your email.
Pure inspiration, zero spam ✨