Apa Itu Underfitting? Dampak dan Cara Menghindarinya

Apa Itu Underfitting

Dalam dunia machine learning, performa model menjadi faktor utama dalam menentukan akurasi prediksi dan kualitas analisis data. Salah satu masalah yang sering terjadi dalam proses training model adalah underfitting, yaitu kondisi ketika model gagal memahami pola data dengan baik sehingga menghasilkan prediksi yang kurang akurat. Masalah ini cukup umum terjadi, terutama pada pemula yang baru mempelajari data science, artificial intelligence, atau machine learning.

Underfitting dapat menyebabkan model memiliki performa buruk baik pada data training maupun data testing. Kondisi ini biasanya terjadi karena model terlalu sederhana, fitur yang digunakan kurang relevan, atau proses training belum optimal. Oleh karena itu, memahami pengertian underfitting, penyebab, ciri-ciri, hingga cara mengatasinya menjadi langkah penting sebelum membangun model machine learning yang akurat dan stabil.

Apa Itu Underfitting dalam Machine Learning?

Underfitting adalah kondisi ketika model machine learning tidak mampu mempelajari pola dalam dataset secara optimal sehingga menghasilkan performa yang rendah pada data training maupun data testing. Dalam ilmu machine learning, underfitting sering dikaitkan dengan high bias, yaitu keadaan ketika model terlalu sederhana untuk merepresentasikan hubungan antar variabel dalam data.

Menurut konsep statistik dan machine learning yang dijelaskan dalam buku Pattern Recognition and Machine Learning karya Pattern Recognition and Machine Learning, underfitting terjadi ketika kompleksitas model terlalu rendah sehingga model gagal menangkap pola penting dalam dataset. Akibatnya, prediksi yang dihasilkan menjadi tidak akurat dan sulit digunakan dalam implementasi nyata.

Secara sederhana, underfitting dapat diibaratkan seperti seseorang yang mencoba memahami materi matematika kompleks hanya dengan mempelajari rumus dasar tanpa latihan lanjutan. Model memang belajar, tetapi pemahamannya tidak cukup untuk menyelesaikan masalah yang lebih kompleks.

Baca Juga: Belajar Data Mining: Pengertian, Metode Dan Cara Kerja

Cara Kerja Underfitting

Untuk memahami bagaimana underfitting terjadi, kamu perlu melihat bagaimana model machine learning belajar dari data. Secara umum, model akan mencoba menemukan pola atau hubungan antara input (fitur) dan output (label). Proses ini dilakukan dengan meminimalkan error menggunakan fungsi loss tertentu.

Namun, dalam kasus underfitting, model tidak cukup fleksibel untuk menangkap pola tersebut. Hal ini biasanya terjadi karena model terlalu sederhana atau parameter yang digunakan terlalu sedikit. Akibatnya, meskipun proses training sudah dilakukan, model tetap menghasilkan error yang tinggi.

Beberapa mekanisme yang menyebabkan underfitting antara lain:

  • Model terlalu sederhana
    Model seperti regresi linear sering kali tidak cukup untuk menangani data kompleks yang memiliki hubungan non-linear.
  • Training yang tidak optimal
    Jika jumlah epoch terlalu sedikit atau proses training dihentikan terlalu cepat, model belum sempat belajar secara maksimal.
  • Fitur yang kurang representatif
    Jika data yang digunakan tidak memiliki fitur yang relevan, model akan kesulitan menemukan pola.

Bayangkan kamu sedang belajar matematika tetapi hanya diberi rumus dasar tanpa latihan soal. Meskipun kamu memahami konsep dasar, kamu tidak akan mampu menyelesaikan soal yang lebih kompleks. Hal yang sama terjadi pada model yang mengalami underfitting.

Baca Juga: Mean Squared Error (MSE): Cara Kerja, dan Contoh Perhitungan

Ciri-Ciri Model Mengalami Underfitting

Mengetahui apakah model mengalami underfitting adalah langkah penting sebelum mencoba memperbaikinya. Ada beberapa ciri khas yang bisa kamu identifikasi dengan mudah, bahkan tanpa analisis yang terlalu kompleks.

  • Akurasi training dan testing rendah
    Model memiliki performa buruk pada data training maupun testing karena gagal mempelajari pola dasar dari dataset yang digunakan.
  • Model terlalu sederhana
    Underfitting sering terjadi karena model atau algoritma yang dipakai tidak cukup kompleks untuk menangani pola data yang ada.
  • Prediksi tidak akurat
    Hasil prediksi model biasanya jauh dari nilai sebenarnya sehingga menghasilkan error yang cukup tinggi.
  • Loss tetap tinggi
    Nilai loss atau error tidak mengalami penurunan signifikan meskipun proses training sudah selesai dilakukan.
  • Penambahan data tidak membantu
    Menambah jumlah data training biasanya tidak memberikan peningkatan performa karena masalah utamanya ada pada model.
  • Model tidak sensitif terhadap input
    Perubahan pada data input sering tidak memberikan perubahan besar pada hasil prediksi model.
  • Sulit menangkap pola data
    Model gagal memahami hubungan atau pola penting di dalam dataset sehingga performanya tetap rendah.

Baca Juga: Root Mean Squared Error (RMSE): Fungsi, Rumus, dan Contoh

Penyebab Underfitting

Berikut beberapa penyebab umum underfitting:

  • Model terlalu sederhana
    Model dengan kompleksitas rendah seperti linear regression sering gagal menangani data yang memiliki hubungan kompleks. Ini adalah penyebab paling umum.
  • Fitur yang digunakan kurang relevan
    Jika fitur yang dimasukkan tidak cukup merepresentasikan data, model tidak memiliki informasi yang cukup untuk belajar.
  • Kurangnya proses training
    Training yang terlalu singkat membuat model belum mencapai kondisi optimal. Ini sering terjadi jika epoch terlalu kecil.
  • Regularisasi berlebihan
    Teknik regularisasi seperti L1 atau L2 memang berguna untuk mencegah overfitting, tetapi jika terlalu kuat justru membuat model terlalu kaku.
  • Data preprocessing yang kurang tepat
    Normalisasi atau encoding yang salah juga bisa menyebabkan model gagal belajar dengan baik.

Baca Juga: Regresi Logistik Multinomial (MLR): Konsep dan Contoh

Contoh Kasus Underfitting dalam Dunia Nyata

  • Prediksi harga rumah
    Underfitting bisa terjadi ketika model hanya menggunakan satu fitur, seperti luas bangunan, untuk memprediksi harga rumah. Padahal harga rumah dipengaruhi banyak faktor lain seperti lokasi, jumlah kamar, akses jalan, dan kondisi lingkungan.
  • Deteksi email spam
    Model klasifikasi spam akan mengalami underfitting jika hanya melihat satu aspek sederhana, misalnya panjang email, tanpa memperhatikan kata kunci atau pola bahasa yang digunakan.
  • Pengenalan gambar (computer vision)
    Model pengenalan gambar dengan arsitektur terlalu sederhana biasanya kesulitan membedakan objek yang memiliki bentuk atau warna mirip sehingga akurasinya rendah.
  • Sistem rekomendasi film atau produk
    Jika model rekomendasi hanya melihat satu riwayat aktivitas pengguna tanpa mempertimbangkan preferensi lain, hasil rekomendasinya sering tidak relevan.
  • Prediksi cuaca
    Model prediksi cuaca dapat mengalami underfitting ketika hanya menggunakan sedikit parameter, seperti suhu, tanpa mempertimbangkan kelembapan, tekanan udara, atau kecepatan angin.
  • Analisis penjualan bisnis
    Dalam analisis penjualan, model yang hanya memakai data jumlah produk terjual tanpa melihat musim, tren pasar, atau perilaku pelanggan biasanya menghasilkan prediksi yang kurang akurat.
  • Deteksi fraud transaksi
    Model deteksi penipuan akan sulit mengenali transaksi mencurigakan jika fitur yang digunakan terlalu sedikit dan tidak mampu menangkap pola aktivitas pengguna secara menyeluruh.

Baca Juga: Computer Vision: Konsep, Cara Kerja, dan Penerapannya

Perbedaan Underfitting vs Overfitting

Berikut adalah tabel perbandingan yang bisa membantu kamu memahami perbedaannya:

AspekUnderfittingOverfitting
Kompleksitas ModelTerlalu sederhanaTerlalu kompleks
Performa TrainingBurukSangat baik
Performa TestingBurukBuruk
Kemampuan GeneralisasiRendahRendah
Penyebab UtamaModel tidak cukup belajarModel terlalu belajar detail
SolusiTambah kompleksitasKurangi kompleksitas

Dari tabel tersebut, terlihat bahwa kedua masalah ini sama-sama menghasilkan performa yang buruk pada data testing. Namun, penyebabnya berbeda. Underfitting terjadi karena model tidak mampu memahami pola dasar, sedangkan overfitting terjadi karena model terlalu fokus pada detail spesifik yang tidak relevan secara umum.

Baca Juga: Cross Validation Adalah: Jenis dan Cara Implementasi

Cara Mengatasi Underfitting

Berikut beberapa cara yang bisa dilakukan:

  • Meningkatkan kompleksitas model
    Menggunakan model yang lebih kompleks seperti decision tree, random forest, atau neural network dapat membantu menangkap pola yang lebih rumit.
  • Menambahkan fitur baru
    Fitur yang lebih relevan akan memberikan informasi tambahan bagi model untuk belajar. Feature engineering menjadi langkah penting di sini.
  • Mengurangi regularisasi
    Jika regularisasi terlalu kuat, model akan menjadi terlalu kaku. Menguranginya bisa memberi fleksibilitas lebih.
  • Menambah waktu training
    Meningkatkan jumlah epoch atau iterasi memungkinkan model belajar lebih optimal.
  • Menggunakan teknik non-linear
    Transformasi data seperti polynomial features bisa membantu model linear menangkap pola non-linear.

Yang perlu diperhatikan, meningkatkan kompleksitas model juga bisa berisiko menyebabkan overfitting. Oleh karena itu, setiap perubahan harus diikuti dengan evaluasi menggunakan data validation atau cross-validation.

Teknik Evaluasi untuk Mendeteksi Underfitting

Salah satu langkah penting dalam machine learning adalah evaluasi model. Tanpa evaluasi yang tepat, kamu tidak akan tahu apakah model mengalami underfitting, overfitting, atau sudah optimal. Ada beberapa teknik yang umum digunakan untuk mendeteksi underfitting.

  • Cross-validation
    Teknik ini membagi dataset menjadi beberapa bagian untuk proses training dan testing secara bergantian. Jika performa model tetap rendah di semua fold, kemungkinan besar model mengalami underfitting.
  • Learning curve
    Learning curve digunakan untuk melihat hubungan antara jumlah data training dan performa model. Pada underfitting, training error dan validation error biasanya sama-sama tinggi dan sulit membaik.
  • Accuracy
    Nilai accuracy yang rendah pada data training maupun testing dapat menjadi tanda bahwa model gagal mempelajari pola data dengan baik.
  • Precision dan Recall
    Dalam model klasifikasi, precision dan recall yang rendah menunjukkan bahwa model kesulitan mengenali pola atau kelas dengan benar.
  • Mean Squared Error (MSE)
    Pada model regresi, nilai MSE yang tinggi menandakan prediksi model jauh dari nilai sebenarnya sehingga model belum belajar secara optimal.

Baca Juga: Precision dan Recall Adalah: Rumus, Contoh, dan Perbedaannya

Rumus Sederhana dalam Evaluasi Model

Dalam machine learning, evaluasi model sering melibatkan berbagai rumus matematis. Salah satu yang paling umum digunakan adalah Mean Squared Error (MSE), terutama untuk kasus regresi.

Rumus MSE adalah sebagai berikut:

MSE=(1/n)×Σ(yiy^i)2MSE = (1/n) × Σ (yᵢ – ŷᵢ)²

Di mana:

  • yiyᵢ adalah nilai aktual
  • y^iŷᵢ adalah nilai prediksi
  • nn adalah jumlah data

Secara sederhana, MSE mengukur rata-rata selisih kuadrat antara nilai aktual dan prediksi. Semakin kecil nilai MSE, semakin baik performa model.

Dalam konteks underfitting, nilai MSE biasanya tinggi baik pada data training maupun testing. Ini menunjukkan bahwa model tidak mampu mempelajari pola dengan baik. Berbeda dengan overfitting yang biasanya memiliki MSE rendah di training tetapi tinggi di testing.

Mengapa menggunakan kuadrat? Karena metode ini memberikan penalti lebih besar pada error yang besar. Jadi, jika ada prediksi yang sangat meleset, nilainya akan lebih berpengaruh terhadap hasil akhir.

Kelebihan Underfitting

  • Model lebih sederhana dan cepat diproses
    Model dengan kompleksitas rendah biasanya membutuhkan waktu training yang lebih singkat dan resource yang lebih kecil. Ini cocok untuk sistem dengan keterbatasan komputasi.
  • Lebih mudah diinterpretasikan
    Model sederhana seperti regresi linear lebih mudah dipahami dan dijelaskan, terutama dalam konteks akademis atau bisnis.

Kekurangan Underfitting

  • Akurasi sangat rendah
    Ini adalah kelemahan utama. Model tidak mampu memberikan prediksi yang akurat.
  • Tidak bisa digunakan dalam aplikasi nyata
    Karena performanya buruk, model underfitting jarang digunakan dalam produksi.
  • Gagal menangkap pola penting
    Informasi berharga dalam data menjadi terabaikan, sehingga analisis menjadi tidak optimal.

Baca Juga: Mengenal Jenis-Jenis Artificial Intelligence Secara Lengkap

Kesimpulan

Pada pembahasan kita di atas dapat kita simpulkan bahwa Underfitting adalah kondisi ketika model machine learning gagal memahami pola data secara optimal sehingga menghasilkan performa yang rendah pada data training maupun testing. Masalah ini biasanya disebabkan oleh model yang terlalu sederhana, fitur yang kurang relevan, atau proses training yang belum maksimal. Akibatnya, model tidak mampu menghasilkan prediksi yang akurat dan sulit digunakan dalam implementasi nyata.

Untuk mengatasi underfitting, diperlukan evaluasi model yang tepat, seperti meningkatkan kompleksitas algoritma, menambahkan fitur yang relevan, atau mengoptimalkan proses training. Dengan memahami penyebab, ciri-ciri, dan cara mengatasinya, kamu bisa membangun model machine learning yang lebih akurat, stabil, dan mampu melakukan generalisasi data dengan baik.

Artikel ini merupakan bagian dari seri Kecerdasan Buatan KantinIT.com. Jika artikel ini bermanfaat, jangan lupa bagikan ke media sosial atau ke teman kamu.

Subscribe to our Newsletter

Subscribe to our email newsletter to get the latest posts delivered right to your email.
Pure inspiration, zero spam ✨