Apa perbedaan Gradient Descent dan SGD?

Gradient Descent menggunakan seluruh dataset untuk setiap update, sedangkan SGD hanya menggunakan satu sampel data sehingga jauh lebih cepat.

Apa kelemahan utama Stochastic Gradient Descent?

Konvergensinya tidak stabil dan sangat sensitif terhadap pemilihan learning rate.

Mengapa SGD hemat memori?

Karena hanya memproses satu sampel data pada satu waktu, tidak perlu menyimpan seluruh dataset dalam memori.

Stochastic Gradient Descent (SGD): Teori dan Penerapan

Dalam dunia machine learning dan data science, proses training model bukan sekadar memasukkan data lalu menunggu hasil. Ada proses optimasi yang menentukan seberapa baik model belajar dari data. Optimasi inilah yang menjadi jantung dari hampir semua algoritma pembelajaran mesin modern. Tanpa optimasi yang tepat, model bisa gagal menemukan pola, lambat konvergen, atau bahkan tidak belajar sama sekali.

Salah satu algoritma optimasi yang paling populer dan fundamental adalah Stochastic Gradient Descent (SGD). Walaupun terlihat sederhana, SGD menjadi fondasi dari banyak metode optimasi lanjutan yang dipakai di deep learning. Memahami SGD bukan hanya penting untuk lulus mata kuliah machine learning, tapi juga krusial bagi siapa pun yang ingin membangun model AI yang efisien dan scalable.

Daftar Isi

Apa Itu Stochastic Gradient Descent (SGD)?

Stochastic Gradient Descent (SGD) adalah algoritma optimasi yang digunakan untuk meminimalkan fungsi loss dengan cara memperbarui parameter model secara bertahap menggunakan sebagian kecil data. Berbeda dengan pendekatan klasik yang menggunakan seluruh dataset sekaligus, SGD melakukan update berdasarkan satu data atau sampel acak pada setiap iterasi.

Secara sederhana, SGD bekerja dengan prinsip “belajar sedikit demi sedikit”. Model tidak menunggu semua data diproses untuk memperbarui bobot, tetapi langsung melakukan update begitu satu data selesai dihitung. Pendekatan ini membuat SGD jauh lebih cepat dan efisien, terutama ketika berhadapan dengan dataset berukuran besar.

Perbedaan utama antara Gradient Descent dan Stochastic Gradient Descent terletak pada jumlah data yang digunakan dalam setiap langkah update. Gradient Descent menggunakan seluruh dataset, sedangkan SGD hanya menggunakan satu sampel acak. Tujuan utama penggunaan SGD adalah mempercepat proses training sekaligus memungkinkan model belajar secara dinamis, terutama pada skenario data besar dan data streaming.

Konsep Dasar Gradient Descent

Untuk memahami SGD, konsep dasar Gradient Descent perlu dipahami terlebih dahulu. Gradient Descent berfokus pada satu tujuan utama, yaitu meminimalkan fungsi loss. Fungsi loss merepresentasikan seberapa besar kesalahan prediksi model dibandingkan dengan nilai sebenarnya. Semakin kecil nilai loss, semakin baik performa model.

Gradien adalah turunan dari fungsi loss terhadap parameter model. Nilai gradien menunjukkan arah dan seberapa besar perubahan parameter yang diperlukan untuk menurunkan error. Dalam konteks optimasi, gradien selalu mengarah ke arah kenaikan, sehingga algoritma harus bergerak ke arah sebaliknya untuk mencapai nilai minimum.

Bayangkan Gradient Descent seperti menuruni bukit berkabut. Kamu tidak tahu posisi lembah terdalam, tetapi kamu bisa merasakan kemiringan tanah di bawah kaki. Dengan mengikuti arah turunan paling curam secara perlahan, kamu akhirnya akan sampai ke titik terendah. SGD mengikuti prinsip yang sama, tetapi dengan informasi kemiringan yang lebih “berisik” karena hanya melihat sebagian kecil data.

Cara Kerja Stochastic Gradient Descent

Cara kerja Stochastic Gradient Descent dapat dijelaskan melalui beberapa tahapan utama berikut:

Inisialisasi parameter model
Model dimulai dengan bobot awal yang biasanya diacak. Nilai awal ini sangat berpengaruh pada jalur optimasi, meskipun pada akhirnya model diharapkan mencapai titik minimum.
Pengambilan satu data secara acak
Berbeda dengan batch method, SGD hanya mengambil satu sampel data secara acak dari dataset. Inilah yang membuat prosesnya “stochastic” atau acak.
Perhitungan loss dan gradien
Model menghitung nilai loss berdasarkan satu data tersebut, lalu menghitung gradien terhadap parameter model.
Update parameter model
Parameter diperbarui menggunakan nilai gradien dan learning rate. Update ini langsung dilakukan tanpa menunggu data lain.
Pengulangan hingga konvergen
Proses ini diulang berkali-kali hingga model mencapai kondisi stabil atau memenuhi kriteria berhenti.

Pendekatan ini membuat SGD sangat cepat, tetapi juga menyebabkan fluktuasi pada nilai loss. Namun, justru fluktuasi inilah yang membantu model keluar dari local minimum.

Rumus Stochastic Gradient Descent

Rumus dasar Stochastic Gradient Descent dituliskan sebagai:

θ = θ − η × ∇L(θ; xᵢ, yᵢ)

Penjelasan komponen rumus:

$θ (theta)$ adalah parameter atau bobot model
$η (eta)$ adalah learning rate
$∇L$ adalah gradien dari fungsi loss
$(xᵢ, yᵢ)$ adalah satu sampel data

Secara intuitif, rumus ini berarti parameter lama dikurangi dengan sejumlah perubahan kecil yang ditentukan oleh gradien dan learning rate. Learning rate berfungsi sebagai pengontrol seberapa besar langkah yang diambil dalam setiap update.

Jenis-Jenis Gradient Descent

Gradient Descent memiliki beberapa variasi utama:

Batch Gradient Descent
Menggunakan seluruh dataset untuk setiap update. Stabil tetapi sangat lambat untuk data besar.
Stochastic Gradient Descent
Menggunakan satu sampel data per update. Cepat dan efisien, tetapi lebih berisik.
Mini-Batch Gradient Descent
Kombinasi keduanya, menggunakan sebagian kecil data. Paling sering digunakan dalam praktik.

Masing-masing metode memiliki kelebihan dan kekurangan tergantung pada ukuran dataset dan kebutuhan komputasi.

Perbandingan Batch, Mini-Batch, dan SGD

Metode	Jumlah Data	Kecepatan	Stabilitas	Cocok untuk
Batch GD	Seluruh data	Lambat	Sangat stabil	Dataset kecil
SGD	1 data	Sangat cepat	Tidak stabil	Dataset besar
Mini-Batch	Sebagian data	Cepat	Cukup stabil	Deep learning

Mini-batch sering menjadi pilihan utama karena memberikan keseimbangan antara efisiensi dan stabilitas.

Kelebihan Stochastic Gradient Descent

Efisiensi komputasi
SGD sangat efisien karena tidak perlu memproses seluruh dataset dalam satu iterasi. Ini sangat membantu saat bekerja dengan data besar.
Skalabilitas tinggi
Cocok untuk dataset besar dan data streaming, di mana data terus bertambah.
Mampu keluar dari local minimum
Sifat acaknya membantu model menjelajahi ruang solusi lebih luas.

Kekurangan Stochastic Gradient Descent

Konvergensi tidak stabil
Fluktuasi loss membuat proses training sulit dipantau secara langsung.
Sensitif terhadap learning rate
Kesalahan kecil dalam pemilihan learning rate dapat berdampak besar.
Sulit mencapai minimum global
SGD sering berhenti di sekitar minimum tanpa benar-benar stabil.

Kapan Sebaiknya Menggunakan SGD

Dataset berukuran besar
Proses update berbasis batch kecil membuat SGD efisien untuk data skala besar.
Sumber daya komputasi terbatas
Konsumsi memori relatif rendah dibanding optimizer adaptif.
Real-time atau online learning
Cocok untuk data yang terus bertambah dan berubah secara dinamis.
Sebagai baseline eksperimen
Sering digunakan sebagai pembanding awal sebelum beralih ke optimizer yang lebih kompleks.
Fokus pada generalisasi
Dalam beberapa kasus, SGD menghasilkan performa generalisasi yang lebih baik dibanding optimizer adaptif.

Kesimpulan

Pada pembahasan kita di atas dapat kita simpulkan bahwa Stochastic Gradient Descent merupakan algoritma optimasi fundamental yang menjadi tulang punggung banyak metode pembelajaran mesin modern. Dengan pendekatan update berbasis sampel acak, SGD menawarkan efisiensi tinggi dan kemampuan skalabilitas yang luar biasa, terutama untuk dataset besar.

Walaupun memiliki tantangan seperti fluktuasi loss dan sensitivitas terhadap learning rate, pemahaman yang baik tentang konsep, rumus, dan cara kerjanya membuat SGD tetap relevan hingga saat ini.

Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kita bahas silahkan komen di bawah ya.

What are You Looking For?

Stochastic Gradient Descent (SGD): Teori dan Penerapan

Apa Itu Stochastic Gradient Descent (SGD)?

Konsep Dasar Gradient Descent

Cara Kerja Stochastic Gradient Descent

Rumus Stochastic Gradient Descent

Jenis-Jenis Gradient Descent

Perbandingan Batch, Mini-Batch, dan SGD

Kelebihan Stochastic Gradient Descent

Kekurangan Stochastic Gradient Descent

Kapan Sebaiknya Menggunakan SGD

Kesimpulan

Read Next

Apa Itu Continual Learning? Teknik, Tantangan, dan Contoh

Precision dan Recall Adalah: Rumus, Contoh, dan Perbedaannya

Memahami F1 Score untuk Evaluasi Model Klasifikasi Data

Stochastic Gradient Descent (SGD): Teori dan Penerapan

Apa Itu Stochastic Gradient Descent (SGD)?

Konsep Dasar Gradient Descent

Cara Kerja Stochastic Gradient Descent

Rumus Stochastic Gradient Descent

Jenis-Jenis Gradient Descent

Perbandingan Batch, Mini-Batch, dan SGD

Kelebihan Stochastic Gradient Descent

Kekurangan Stochastic Gradient Descent

Kapan Sebaiknya Menggunakan SGD

Kesimpulan

Read Next

Apa Itu Continual Learning? Teknik, Tantangan, dan Contoh

Precision dan Recall Adalah: Rumus, Contoh, dan Perbedaannya

Memahami F1 Score untuk Evaluasi Model Klasifikasi Data

Subscribe to our Newsletter