Dalam dunia machine learning, performa model menjadi faktor utama dalam menentukan akurasi prediksi dan kualitas analisis data. Salah satu masalah yang sering terjadi dalam proses training model adalah underfitting, yaitu kondisi ketika model gagal memahami pola data dengan baik sehingga menghasilkan prediksi yang kurang akurat. Masalah ini cukup umum terjadi, terutama pada pemula yang baru mempelajari data science, artificial intelligence, atau machine learning.
Underfitting dapat menyebabkan model memiliki performa buruk baik pada data training maupun data testing. Kondisi ini biasanya terjadi karena model terlalu sederhana, fitur yang digunakan kurang relevan, atau proses training belum optimal. Oleh karena itu, memahami pengertian underfitting, penyebab, ciri-ciri, hingga cara mengatasinya menjadi langkah penting sebelum membangun model machine learning yang akurat dan stabil.
Apa Itu Underfitting dalam Machine Learning?
Underfitting adalah kondisi ketika model machine learning tidak mampu mempelajari pola dalam dataset secara optimal sehingga menghasilkan performa yang rendah pada data training maupun data testing. Dalam ilmu machine learning, underfitting sering dikaitkan dengan high bias, yaitu keadaan ketika model terlalu sederhana untuk merepresentasikan hubungan antar variabel dalam data.
Menurut konsep statistik dan machine learning yang dijelaskan dalam buku Pattern Recognition and Machine Learning karya Pattern Recognition and Machine Learning, underfitting terjadi ketika kompleksitas model terlalu rendah sehingga model gagal menangkap pola penting dalam dataset. Akibatnya, prediksi yang dihasilkan menjadi tidak akurat dan sulit digunakan dalam implementasi nyata.
Secara sederhana, underfitting dapat diibaratkan seperti seseorang yang mencoba memahami materi matematika kompleks hanya dengan mempelajari rumus dasar tanpa latihan lanjutan. Model memang belajar, tetapi pemahamannya tidak cukup untuk menyelesaikan masalah yang lebih kompleks.
Baca Juga: Belajar Data Mining: Pengertian, Metode Dan Cara Kerja
Cara Kerja Underfitting
Untuk memahami bagaimana underfitting terjadi, kamu perlu melihat bagaimana model machine learning belajar dari data. Secara umum, model akan mencoba menemukan pola atau hubungan antara input (fitur) dan output (label). Proses ini dilakukan dengan meminimalkan error menggunakan fungsi loss tertentu.
Namun, dalam kasus underfitting, model tidak cukup fleksibel untuk menangkap pola tersebut. Hal ini biasanya terjadi karena model terlalu sederhana atau parameter yang digunakan terlalu sedikit. Akibatnya, meskipun proses training sudah dilakukan, model tetap menghasilkan error yang tinggi.
Beberapa mekanisme yang menyebabkan underfitting antara lain:
- Model terlalu sederhana
Model seperti regresi linear sering kali tidak cukup untuk menangani data kompleks yang memiliki hubungan non-linear. - Training yang tidak optimal
Jika jumlah epoch terlalu sedikit atau proses training dihentikan terlalu cepat, model belum sempat belajar secara maksimal. - Fitur yang kurang representatif
Jika data yang digunakan tidak memiliki fitur yang relevan, model akan kesulitan menemukan pola.
Bayangkan kamu sedang belajar matematika tetapi hanya diberi rumus dasar tanpa latihan soal. Meskipun kamu memahami konsep dasar, kamu tidak akan mampu menyelesaikan soal yang lebih kompleks. Hal yang sama terjadi pada model yang mengalami underfitting.
Baca Juga: Mean Squared Error (MSE): Cara Kerja, dan Contoh Perhitungan
Ciri-Ciri Model Mengalami Underfitting
Mengetahui apakah model mengalami underfitting adalah langkah penting sebelum mencoba memperbaikinya. Ada beberapa ciri khas yang bisa kamu identifikasi dengan mudah, bahkan tanpa analisis yang terlalu kompleks.
- Akurasi training dan testing rendah
Model memiliki performa buruk pada data training maupun testing karena gagal mempelajari pola dasar dari dataset yang digunakan. - Model terlalu sederhana
Underfitting sering terjadi karena model atau algoritma yang dipakai tidak cukup kompleks untuk menangani pola data yang ada. - Prediksi tidak akurat
Hasil prediksi model biasanya jauh dari nilai sebenarnya sehingga menghasilkan error yang cukup tinggi. - Loss tetap tinggi
Nilai loss atau error tidak mengalami penurunan signifikan meskipun proses training sudah selesai dilakukan. - Penambahan data tidak membantu
Menambah jumlah data training biasanya tidak memberikan peningkatan performa karena masalah utamanya ada pada model. - Model tidak sensitif terhadap input
Perubahan pada data input sering tidak memberikan perubahan besar pada hasil prediksi model. - Sulit menangkap pola data
Model gagal memahami hubungan atau pola penting di dalam dataset sehingga performanya tetap rendah.
Baca Juga: Root Mean Squared Error (RMSE): Fungsi, Rumus, dan Contoh
Penyebab Underfitting
Berikut beberapa penyebab umum underfitting:
- Model terlalu sederhana
Model dengan kompleksitas rendah seperti linear regression sering gagal menangani data yang memiliki hubungan kompleks. Ini adalah penyebab paling umum. - Fitur yang digunakan kurang relevan
Jika fitur yang dimasukkan tidak cukup merepresentasikan data, model tidak memiliki informasi yang cukup untuk belajar. - Kurangnya proses training
Training yang terlalu singkat membuat model belum mencapai kondisi optimal. Ini sering terjadi jika epoch terlalu kecil. - Regularisasi berlebihan
Teknik regularisasi seperti L1 atau L2 memang berguna untuk mencegah overfitting, tetapi jika terlalu kuat justru membuat model terlalu kaku. - Data preprocessing yang kurang tepat
Normalisasi atau encoding yang salah juga bisa menyebabkan model gagal belajar dengan baik.
Baca Juga: Regresi Logistik Multinomial (MLR): Konsep dan Contoh
Contoh Kasus Underfitting dalam Dunia Nyata
- Prediksi harga rumah
Underfitting bisa terjadi ketika model hanya menggunakan satu fitur, seperti luas bangunan, untuk memprediksi harga rumah. Padahal harga rumah dipengaruhi banyak faktor lain seperti lokasi, jumlah kamar, akses jalan, dan kondisi lingkungan. - Deteksi email spam
Model klasifikasi spam akan mengalami underfitting jika hanya melihat satu aspek sederhana, misalnya panjang email, tanpa memperhatikan kata kunci atau pola bahasa yang digunakan. - Pengenalan gambar (computer vision)
Model pengenalan gambar dengan arsitektur terlalu sederhana biasanya kesulitan membedakan objek yang memiliki bentuk atau warna mirip sehingga akurasinya rendah. - Sistem rekomendasi film atau produk
Jika model rekomendasi hanya melihat satu riwayat aktivitas pengguna tanpa mempertimbangkan preferensi lain, hasil rekomendasinya sering tidak relevan. - Prediksi cuaca
Model prediksi cuaca dapat mengalami underfitting ketika hanya menggunakan sedikit parameter, seperti suhu, tanpa mempertimbangkan kelembapan, tekanan udara, atau kecepatan angin. - Analisis penjualan bisnis
Dalam analisis penjualan, model yang hanya memakai data jumlah produk terjual tanpa melihat musim, tren pasar, atau perilaku pelanggan biasanya menghasilkan prediksi yang kurang akurat. - Deteksi fraud transaksi
Model deteksi penipuan akan sulit mengenali transaksi mencurigakan jika fitur yang digunakan terlalu sedikit dan tidak mampu menangkap pola aktivitas pengguna secara menyeluruh.
Baca Juga: Computer Vision: Konsep, Cara Kerja, dan Penerapannya
Perbedaan Underfitting vs Overfitting
Berikut adalah tabel perbandingan yang bisa membantu kamu memahami perbedaannya:
| Aspek | Underfitting | Overfitting |
|---|---|---|
| Kompleksitas Model | Terlalu sederhana | Terlalu kompleks |
| Performa Training | Buruk | Sangat baik |
| Performa Testing | Buruk | Buruk |
| Kemampuan Generalisasi | Rendah | Rendah |
| Penyebab Utama | Model tidak cukup belajar | Model terlalu belajar detail |
| Solusi | Tambah kompleksitas | Kurangi kompleksitas |
Dari tabel tersebut, terlihat bahwa kedua masalah ini sama-sama menghasilkan performa yang buruk pada data testing. Namun, penyebabnya berbeda. Underfitting terjadi karena model tidak mampu memahami pola dasar, sedangkan overfitting terjadi karena model terlalu fokus pada detail spesifik yang tidak relevan secara umum.
Baca Juga: Cross Validation Adalah: Jenis dan Cara Implementasi
Cara Mengatasi Underfitting
Berikut beberapa cara yang bisa dilakukan:
- Meningkatkan kompleksitas model
Menggunakan model yang lebih kompleks seperti decision tree, random forest, atau neural network dapat membantu menangkap pola yang lebih rumit. - Menambahkan fitur baru
Fitur yang lebih relevan akan memberikan informasi tambahan bagi model untuk belajar. Feature engineering menjadi langkah penting di sini. - Mengurangi regularisasi
Jika regularisasi terlalu kuat, model akan menjadi terlalu kaku. Menguranginya bisa memberi fleksibilitas lebih. - Menambah waktu training
Meningkatkan jumlah epoch atau iterasi memungkinkan model belajar lebih optimal. - Menggunakan teknik non-linear
Transformasi data seperti polynomial features bisa membantu model linear menangkap pola non-linear.
Yang perlu diperhatikan, meningkatkan kompleksitas model juga bisa berisiko menyebabkan overfitting. Oleh karena itu, setiap perubahan harus diikuti dengan evaluasi menggunakan data validation atau cross-validation.
Teknik Evaluasi untuk Mendeteksi Underfitting
Salah satu langkah penting dalam machine learning adalah evaluasi model. Tanpa evaluasi yang tepat, kamu tidak akan tahu apakah model mengalami underfitting, overfitting, atau sudah optimal. Ada beberapa teknik yang umum digunakan untuk mendeteksi underfitting.
- Cross-validation
Teknik ini membagi dataset menjadi beberapa bagian untuk proses training dan testing secara bergantian. Jika performa model tetap rendah di semua fold, kemungkinan besar model mengalami underfitting. - Learning curve
Learning curve digunakan untuk melihat hubungan antara jumlah data training dan performa model. Pada underfitting, training error dan validation error biasanya sama-sama tinggi dan sulit membaik. - Accuracy
Nilai accuracy yang rendah pada data training maupun testing dapat menjadi tanda bahwa model gagal mempelajari pola data dengan baik. - Precision dan Recall
Dalam model klasifikasi, precision dan recall yang rendah menunjukkan bahwa model kesulitan mengenali pola atau kelas dengan benar. - Mean Squared Error (MSE)
Pada model regresi, nilai MSE yang tinggi menandakan prediksi model jauh dari nilai sebenarnya sehingga model belum belajar secara optimal.
Baca Juga: Precision dan Recall Adalah: Rumus, Contoh, dan Perbedaannya
Rumus Sederhana dalam Evaluasi Model
Dalam machine learning, evaluasi model sering melibatkan berbagai rumus matematis. Salah satu yang paling umum digunakan adalah Mean Squared Error (MSE), terutama untuk kasus regresi.
Rumus MSE adalah sebagai berikut:
Di mana:
- adalah nilai aktual
- adalah nilai prediksi
- adalah jumlah data
Secara sederhana, MSE mengukur rata-rata selisih kuadrat antara nilai aktual dan prediksi. Semakin kecil nilai MSE, semakin baik performa model.
Dalam konteks underfitting, nilai MSE biasanya tinggi baik pada data training maupun testing. Ini menunjukkan bahwa model tidak mampu mempelajari pola dengan baik. Berbeda dengan overfitting yang biasanya memiliki MSE rendah di training tetapi tinggi di testing.
Mengapa menggunakan kuadrat? Karena metode ini memberikan penalti lebih besar pada error yang besar. Jadi, jika ada prediksi yang sangat meleset, nilainya akan lebih berpengaruh terhadap hasil akhir.
Kelebihan Underfitting
- Model lebih sederhana dan cepat diproses
Model dengan kompleksitas rendah biasanya membutuhkan waktu training yang lebih singkat dan resource yang lebih kecil. Ini cocok untuk sistem dengan keterbatasan komputasi. - Lebih mudah diinterpretasikan
Model sederhana seperti regresi linear lebih mudah dipahami dan dijelaskan, terutama dalam konteks akademis atau bisnis.
Kekurangan Underfitting
- Akurasi sangat rendah
Ini adalah kelemahan utama. Model tidak mampu memberikan prediksi yang akurat. - Tidak bisa digunakan dalam aplikasi nyata
Karena performanya buruk, model underfitting jarang digunakan dalam produksi. - Gagal menangkap pola penting
Informasi berharga dalam data menjadi terabaikan, sehingga analisis menjadi tidak optimal.
Baca Juga: Mengenal Jenis-Jenis Artificial Intelligence Secara Lengkap
Kesimpulan
Pada pembahasan kita di atas dapat kita simpulkan bahwa Underfitting adalah kondisi ketika model machine learning gagal memahami pola data secara optimal sehingga menghasilkan performa yang rendah pada data training maupun testing. Masalah ini biasanya disebabkan oleh model yang terlalu sederhana, fitur yang kurang relevan, atau proses training yang belum maksimal. Akibatnya, model tidak mampu menghasilkan prediksi yang akurat dan sulit digunakan dalam implementasi nyata.
Untuk mengatasi underfitting, diperlukan evaluasi model yang tepat, seperti meningkatkan kompleksitas algoritma, menambahkan fitur yang relevan, atau mengoptimalkan proses training. Dengan memahami penyebab, ciri-ciri, dan cara mengatasinya, kamu bisa membangun model machine learning yang lebih akurat, stabil, dan mampu melakukan generalisasi data dengan baik.
Artikel ini merupakan bagian dari seri Kecerdasan Buatan KantinIT.com. Jika artikel ini bermanfaat, jangan lupa bagikan ke media sosial atau ke teman kamu.