Likelihood dalam Machine Learning: Penjelasan Mendalam

Likelihood

Dalam dunia teknologi yang semakin digerakkan oleh data, memahami konsep statistika bukan lagi sekadar kebutuhan akademis tapi menjadi fondasi penting bagi programmer, mahasiswa IT, dan siapa pun yang ingin membangun teknologi berbasis kecerdasan buatan. Salah satu konsep yang sering terdengar, namun sebenarnya cukup menantang untuk dipahami, adalah likelihood. Kata ini mungkin terlihat sederhana, tetapi maknanya berpengaruh besar terhadap cara model matematis mengevaluasi data.

Bagi kamu yang sering berkutat dengan machine learning, pemodelan probabilistik, atau analisis data, memahami likelihood adalah kunci untuk memahami bagaimana suatu model memilih parameter terbaik. Konsep ini digunakan mulai dari regresi logistik, model generatif, hingga algoritma modern berbasis statistik. Karena itu, artikel ini akan membahas likelihood secara detail, sederhana, dan step-by-step agar kamu bisa memahaminya dengan mudah dan menerapkannya dalam pekerjaan atau project kuliahmu.

Apa Itu Likelihood?

Likelihood adalah konsep dasar dalam statistika yang sangat penting untuk dipahami terutama bagi kamu yang terjun di bidang IT, machine learning, data science, maupun pengembangan model prediktif. Likelihood menggambarkan seberapa besar kemungkinan sebuah parameter model menghasilkan data yang sedang kamu amati. Jadi fokusnya bukan pada datanya, tetapi pada parameternya. Dengan memahami likelihood, kamu bisa mengetahui parameter mana yang paling “masuk akal” untuk menjelaskan sebuah data.

Yang sering bikin bingung, likelihood sering dianggap sama dengan probability, padahal keduanya berbeda. Probability menjawab pertanyaan: “Jika aku tahu parameternya, seberapa besar peluang data ini muncul?” Sementara likelihood menjawab pertanyaan sebaliknya: “Jika aku tahu datanya, seberapa besar kemungkinan suatu parameter adalah benar?” Jadi perbedaannya sangat signifikan. Probability fokus pada prediksi data, sementara likelihood fokus pada penilaian parameter. Konsep ini menjadi fondasi untuk berbagai metode statistik modern seperti Maximum Likelihood Estimation (MLE), regresi logistik, hingga model generatif dalam machine learning seperti Naive Bayes.

Mengapa Likelihood Penting Dalam Dunia Programmer & Data Science?

Likelihood memiliki peran besar dalam berbagai algoritma yang digunakan programmer dan data scientist. Salah satu alasan kenapa konsep ini penting adalah karena hampir semua model statistika dan machine learning modern menggunakan likelihood untuk mempelajari pola dalam data. Saat kamu melatih model, sebenarnya model sedang mencari parameter yang membuat likelihood menjadi maksimum artinya parameter tersebut paling cocok dengan data yang diberikan. Tanpa konsep ini, proses training dalam machine learning tidak akan berjalan sebagaimana mestinya.

Selain itu, likelihood juga penting karena menjadi dasar pengambilan keputusan berbasis data. Dalam analisis statistik, likelihood membantu kamu memvalidasi parameter dan mengukur seberapa kuat sebuah hipotesis berdasarkan bukti data. Konsep ini sering digunakan dalam model probabilistik seperti Bayesian Network, Hidden Markov Model, dan model prediksi berbasis distribusi. Dengan kata lain, likelihood adalah pondasi yang menyatukan data, parameter, dan model, sehingga programmer dapat membangun sistem yang lebih akurat dan efisien.

Dasar Matematis Likelihood

Likelihood memiliki dasar matematis yang cukup sederhana, tetapi penting untuk dipahami agar kamu bisa mengaplikasikannya dalam machine learning maupun pemodelan statistik. Secara formal, likelihood dinyatakan sebagai fungsi dari parameter model yang menghasilkan data tertentu. Misalkan kamu memiliki data x dan parameter θ, maka likelihood dinyatakan sebagai L(θ | x), yang berarti “seberapa besar kemungkinan parameter θ menghasilkan data x?” Berbeda dengan probability yang memandang x sebagai variabel, di sini justru θ yang dianggap variabel, sementara data x dianggap tetap. Jadi fokusnya benar-benar pada bagaimana parameter menjelaskan data, bukan sebaliknya.

Dalam praktiknya, banyak model menggunakan log-likelihood, yaitu logaritma dari nilai likelihood. Kenapa harus dibuat log? Karena ketika dataset besar, nilai likelihood mentah biasanya sangat kecil, hingga mendekati nol, sehingga komputer kesulitan melakukan perhitungan. Dengan menggunakan log, kamu tidak hanya membuat perhitungannya lebih stabil secara numerik, tetapi juga lebih mudah dioptimalisasi. Misalnya, proses penjumlahan lebih mudah daripada perkalian dalam jumlah besar, dan log-likelihood mengubah perkalian menjadi penjumlahan. Selain itu, model regresi logistik dan model probabilistik lainnya menggunakan log-likelihood untuk menghitung cost function atau loss function sehingga parameter bisa ditingkatkan atau disesuaikan selama proses training.

Secara intuitif, log-likelihood membantu kamu mengetahui apakah parameter mendekati nilai “benar” berdasarkan seberapa besar nilainya. Semakin tinggi log-likelihood, semakin cocok parameter tersebut dengan data yang diamati. Ini sebabnya banyak algoritma optimization seperti gradient descent memaksimalkan log-likelihood untuk menemukan solusi terbaik. Maka, memahami dasar matematis likelihood adalah landasan penting sebelum kamu masuk ke teknik seperti Maximum Likelihood Estimation (MLE) atau model probabilistik lanjutan.

Hubungan Likelihood dan Parameter Model

Hubungan antara likelihood dan parameter model sangat erat, karena tujuan utama likelihood adalah mengevaluasi apakah parameter tertentu dapat menjelaskan data yang ada. Bayangkan kamu sedang mencoba menebak seberapa “bias” sebuah koin, apakah koin lebih sering muncul kepala atau ekor. Dalam konteks ini, parameter yang dicari adalah probabilitas munculnya kepala, misalnya θ = P(heads). Likelihood akan mengukur seberapa besar kemungkinan parameter tertentu menghasilkan hasil lemparan koin yang sudah kamu amati. Jika kamu mengamati 7 kepala dari 10 lemparan, maka parameter θ = 0.7 akan memiliki likelihood yang jauh lebih besar dibandingkan θ = 0.3. Dengan kata lain, parameter lebih “masuk akal” jika menghasilkan likelihood lebih tinggi.

Kurva likelihood yang menggambarkan perubahan nilai likelihood terhadap parameter, sering digunakan untuk mencari parameter optimal. Kurva ini biasanya memiliki bentuk mengerucut ke puncak tertentu (peak), dan titik tertinggi pada kurva tersebut adalah parameter yang paling cocok dengan data. Dalam optimasi model machine learning, puncak ini dicari menggunakan algoritma seperti gradient descent, di mana parameter diperbarui sedikit demi sedikit berdasarkan seberapa besar perubahan likelihood. Semakin dekat parameter ke posisi optimal, semakin tinggi nilai likelihoodnya, dan semakin baik model tersebut dalam menjelaskan data.

Konsep hubungan parameter dan likelihood ini sangat penting dalam berbagai model seperti regresi logistik, Naive Bayes, Gaussian Mixture Model, bahkan neural network modern yang memanfaatkan probabilitas. Kamu bisa membayangkan likelihood sebagai “GPS” bagi parameter model yang semakin tinggi nilainya, semakin dekat kamu ke tujuan, yaitu parameter yang paling sesuai dengan data.

Contoh Sederhana Cara Kerja Likelihood

Untuk memahami konsep likelihood secara intuitif, mari ambil contoh sederhana dengan eksperimen lempar koin, contoh klasik yang sering dipakai dalam statistika. Misalkan kamu memiliki sebuah koin yang ingin diuji apakah fair (50% kepala, 50% ekor) atau bias. Lalu kamu melakukan 10 kali lemparan dan mendapatkan hasil 7 kepala dan 3 ekor. Nah, pertanyaannya: parameter θ manakah yang paling mungkin menghasilkan data tersebut? Apakah koin ini memiliki peluang kepala sebesar 0.5? 0.6? Atau 0.7?

Berikut tahapan sederhana untuk menghitung likelihood-nya:

  1. Tentukan parameter (θ) yang ingin diuji
    Misalnya: 0.5, 0.6, dan 0.7.
  2. Gunakan rumus likelihood distribusi binomial
    Likelihood = θ^(jumlah_kepala) × (1 − θ)^(jumlah_ekor)
  3. Hitung nilai likelihood untuk tiap parameter
    Setiap parameter akan menghasilkan nilai yang berbeda.
  4. Bandingkan nilai likelihood
    Parameter dengan nilai likelihood tertinggi adalah yang paling cocok.

Ketika dihitung, biasanya θ = 0.7 memiliki likelihood tertinggi, artinya nilai ini paling masuk akal untuk menjelaskan hasil 7 kepala dari 10 percobaan. Contoh sederhana ini membantu kamu memahami bahwa likelihood bukan menilai apakah data itu mungkin, tetapi menilai apakah parameter itu cocok untuk data. Konsep sederhana ini adalah fondasi bagi berbagai model statistik dan machine learning modern yang kamu gunakan saat ini.

Likelihood Dalam Machine Learning

Likelihood memegang peran sentral dalam berbagai model machine learning, terutama model generatif seperti Naive Bayes, Gaussian Mixture Model, dan Hidden Markov Models. Dalam model generatif, tujuan utamanya adalah mempelajari distribusi data agar model dapat menghasilkan data baru yang mirip dengan data yang sudah ada. Proses belajar ini dilakukan dengan mencari parameter yang memaksimalkan nilai likelihood terhadap data training. Ketika likelihood tinggi, itu berarti model berhasil mempelajari pola distribusi secara akurat sesuai data.

Selain itu, banyak algoritma machine learning modern menggunakan log-likelihood sebagai fungsi yang harus dimaksimalkan selama proses training. Misalnya dalam regresi logistik, log-likelihood digunakan sebagai dasar dari loss function bernama binary cross-entropy. Semakin tinggi nilai likelihood, semakin baik performa model dalam mengklasifikasikan data. Begitu pula dengan model probabilistik berbasis neural network, seperti Variational Autoencoder (VAE), yang menggunakan likelihood sebagai indikator utama kualitas rekonstruksi data. Likelihood juga digunakan untuk mengevaluasi performa model generatif seperti PixelCNN, yang memprediksi distribusi nilai piksel.

Likelihood Pada Model Regresi (Regresi Linear & Logistik)

Dalam regresi linear dan regresi logistik, likelihood memiliki peran yang sedikit berbeda, meskipun sama-sama digunakan untuk mencari parameter model terbaik. Pada regresi linear, asumsi yang digunakan adalah bahwa error mengikuti distribusi Gaussian. Dengan asumsi ini, likelihood dihitung berdasarkan seberapa kecil error antara prediksi dan nilai sebenarnya. Semakin kecil error, semakin tinggi likelihood. Karena itu, regresi linear pada dasarnya setara dengan meminimalkan mean squared error—yang ternyata berasal dari proses memaksimalkan likelihood berdasarkan distribusi Gaussian.

Di sisi lain, regresi logistik menggunakan distribusi Bernoulli karena targetnya berupa nilai biner (0 atau 1). Likelihood akan mengukur seberapa besar peluang parameter model menghasilkan label yang benar berdasarkan probabilitas yang diprediksi. Fungsi log-likelihood inilah yang menjadi dasar binary cross-entropy loss, yang kemudian dioptimasi menggunakan gradient descent. Jadi setiap kali kamu melatih regresi logistik, sebenarnya kamu sedang memaksimalkan likelihood tanpa menyadarinya.

Perbedaan inti kedua model ini dapat dilihat dalam tabel berikut:

Regresi LinearRegresi Logistik
Menggunakan distribusi GaussianMenggunakan distribusi Bernoulli
Target berupa nilai kontinuTarget berupa nilai biner
Optimasi setara dengan meminimalkan MSEOptimasi menggunakan binary cross-entropy
Likelihood berdasarkan error linearLikelihood berdasarkan probabilitas kelas

Kelebihan Likelihood

  1. Memberikan metode sistematis untuk mengestimasi parameter model
    Likelihood menyediakan cara yang sangat terstruktur untuk memilih parameter terbaik berdasarkan data. Dengan mengukur seberapa besar kecocokan parameter terhadap data, kamu bisa membangun model yang lebih masuk akal secara matematis. Pendekatan ini jauh lebih reliabel dibandingkan menebak parameter secara manual karena setiap langkahnya memiliki dasar probabilistik yang kuat.
  2. Bekerja sangat baik pada jumlah data besar (konsisten secara statistik)
    Likelihood memiliki sifat asymptotic consistency, artinya ketika jumlah data semakin banyak, parameter yang dihasilkan semakin mendekati nilai sebenarnya.
  3. Fleksibel dan dapat digunakan pada berbagai jenis distribusi
    Salah satu kelebihan paling kuat dari likelihood adalah fleksibilitasnya. Kamu bisa menggunakannya pada distribusi Bernoulli, Gaussian, multinomial, Poisson, hingga distribusi kompleks lain yang digunakan dalam model generatif modern.
  4. Bisa dikombinasikan dengan log-likelihood untuk mempermudah perhitungan
    Dalam dunia praktis, log-likelihood jauh lebih mudah dihitung dan lebih stabil secara numerik. Likelihood asli biasanya menghasilkan angka yang sangat kecil, terutama saat dataset besar.
  5. Dasar dari banyak algoritma machine learning modern
    Banyak metode populer seperti regresi logistik, Hidden Markov Model, Naive Bayes, dan Gaussian Mixture Model semuanya berdiri di atas konsep likelihood. Bahkan beberapa loss function seperti cross-entropy merupakan bentuk turunan dari negatif log-likelihood.

Kekurangan Likelihood

  1. Sangat sensitif terhadap outlier
    Likelihood akan berubah drastis hanya karena satu nilai data yang ekstrem. Misalnya, jika kamu menghitung likelihood berdasarkan distribusi Gaussian, satu nilai yang berada jauh dari rata-rata dapat membuat parameter seperti mean dan variance berubah signifikan.
  2. Tidak stabil pada dataset kecil
    Likelihood bekerja optimal saat jumlah data besar, tetapi pada dataset kecil, hasilnya bisa jauh dari akurat. Estimasi parameter dapat menjadi bias dan tidak mencerminkan kondisi sebenarnya.
  3. Membutuhkan asumsi distribusi yang benar
    Likelihood bergantung pada asumsi initial bahwa data mengikuti distribusi tertentu. Jika kamu salah memilih distribusi, maka seluruh proses estimasi akan salah. Misalnya, menganggap data mengikuti distribusi normal padahal sebenarnya skewed.
  4. Perhitungan bisa menjadi sangat kompleks pada model modern
    Pada model seperti Variational Autoencoder, Normalizing Flow, atau Bayesian Network, bentuk likelihood bisa sangat rumit dan tidak bisa dihitung secara analitis.
  5. Tidak selalu memberikan solusi analitis
    Beberapa fungsi likelihood terlalu kompleks untuk diselesaikan dengan rumus tertutup. Kamu tidak bisa menemukan parameter secara langsung, harus menggunakan iterative methods.

Kesimpulan

Pada pembahasan di atas dapat kita simpulkan bahwa Likelihood adalah konsep fundamental dalam statistika dan machine learning yang membantu menentukan parameter terbaik untuk menjelaskan data. Dalam machine learning, hampir semua model modern menggunakan konsep likelihood secara langsung maupun tidak langsung, terutama saat proses training.

Dengan memahami likelihood, kamu dapat lebih mudah memahami regresi, model generatif, Bayesian inference, hingga algoritma optimasi yang digunakan dalam neural network. Likelihood menjembatani data dan parameter secara elegan, sehingga model dapat belajar pola secara efektif.

Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..

Write a Comment

Leave a Comment

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Subscribe to our Newsletter

Subscribe to our email newsletter to get the latest posts delivered right to your email.
Pure inspiration, zero spam ✨