Apa Itu Local Outlier Factor (LOF) dan Cara Kerjanya

Local Outlier Factor (LOF)

Dalam dunia data science dan machine learning, memahami Local Outlier Factor (LOF) menjadi hal penting ketika berhadapan dengan data yang tidak sempurna. Tidak semua dataset bersih, sering kali terdapat data menyimpang atau outlier yang bisa merusak hasil analisis dan model prediksi. Jika tidak ditangani dengan tepat, outlier dapat menyebabkan bias, error, bahkan keputusan bisnis yang keliru.

Untuk mengatasi masalah tersebut, digunakan teknik anomaly detection, salah satunya adalah Local Outlier Factor (LOF). Algoritma ini memiliki pendekatan unik karena tidak hanya melihat jarak antar data, tetapi juga mempertimbangkan kepadatan lokal di sekitarnya. Dengan pendekatan ini, LOF mampu mendeteksi outlier secara lebih akurat, terutama pada dataset yang kompleks dan tidak merata.

Apa Itu Local Outlier Factor (LOF)?

Local Outlier Factor (LOF) adalah algoritma dalam machine learning yang digunakan untuk mendeteksi outlier atau anomali berdasarkan kepadatan lokal suatu data. Metode ini pertama kali diperkenalkan oleh Breunig et al. (2000) dalam konteks data mining dan sejak itu menjadi salah satu teknik populer dalam anomaly detection.

Secara konsep, Local Outlier Factor mengukur seberapa jauh tingkat kepadatan suatu titik data dibandingkan dengan tetangganya. Jika suatu titik berada di area dengan kepadatan yang jauh lebih rendah dibandingkan lingkungan sekitarnya, maka titik tersebut dianggap sebagai outlier.

Dengan kata lain, LOF tidak hanya melihat jarak antar data, tetapi juga mempertimbangkan “konteks lokal”, sehingga lebih efektif dalam mendeteksi anomali pada dataset yang memiliki distribusi tidak merata atau kompleks.

Baca Juga: Algoritma Adalah: Jenis, Fungsi dan Contoh

Cara Kerja Local Outlier Factor (LOF)

Cara kerja LOF sebenarnya cukup menarik karena tidak hanya bergantung pada jarak, tetapi juga mempertimbangkan kepadatan di sekitar data. Prosesnya terdiri dari beberapa tahapan yang saling berkaitan, dan setiap tahap memiliki peran penting dalam menentukan apakah suatu titik termasuk outlier atau bukan.

Berikut gambaran tahapan utama dalam cara kerja LOF:

  • Menentukan jumlah tetangga (k-nearest neighbors)
    LOF dimulai dengan menentukan jumlah tetangga terdekat (biasanya disebut parameter k). Nilai ini akan menentukan seberapa luas “lingkungan” yang dianalisis.
  • Menghitung jarak antar titik
    Setiap titik data akan dihitung jaraknya dengan titik lain untuk menemukan tetangga terdekatnya.
  • Mengukur kepadatan lokal
    LOF menghitung seberapa padat suatu titik dibandingkan dengan tetangganya menggunakan konsep reachability distance.
  • Membandingkan densitas
    Densitas suatu titik dibandingkan dengan densitas tetangganya untuk menentukan apakah titik tersebut menyimpang.

Jika suatu titik memiliki densitas yang jauh lebih rendah dibandingkan tetangganya, maka nilai LOF-nya akan tinggi, yang menandakan bahwa titik tersebut adalah outlier.

Baca Juga: K Nearest Neighbor (KNN): Pengertian, Cara Kerja dan Penerapannya

Rumus Local Outlier Factor (LOF)

Untuk memahami LOF secara lebih dalam, penting juga untuk mengenal rumus dasarnya. Meskipun terlihat matematis, konsepnya sebenarnya cukup logis jika dipahami perlahan.

Rumus dasar LOF adalah:

LOF(p)=(Σ(lrd(o)/lrd(p)))/|N(p)|LOF(p) = (Σ (lrd(o) / lrd(p))) / |N(p)|

Di mana:

  • lrd(p)lrd(p) = local reachability density dari titik p
  • lrd(o)lrd(o) = density dari tetangga o
  • N(p)N(p) = himpunan tetangga dari p

Secara intuitif, rumus ini membandingkan kepadatan titik p dengan rata-rata kepadatan tetangganya. Jika nilai LOF mendekati 1, berarti titik tersebut normal. Namun jika nilainya jauh lebih besar dari 1, maka titik tersebut kemungkinan besar adalah outlier.

Interpretasi nilai LOF:

  • LOF1LOF ≈ 1 → Data normal
  • LOF>1LOF > 1 → Mulai terindikasi outlier
  • LOF>>1LOF >> 1 → Outlier kuat

Mengapa pendekatan ini efektif? Karena LOF tidak hanya melihat posisi absolut suatu titik, tetapi juga konteks lingkungannya. Ini sangat penting dalam dataset yang memiliki cluster dengan kepadatan berbeda.

Baca Juga: Apa Itu Anomaly Detection? Fungsi dan Cara Kerjanya

Ciri-Ciri Data Outlier Berdasarkan LOF

Beberapa ciri utama data outlier berdasarkan LOF:

  • Nilai LOF lebih besar dari 1
    Ini adalah indikator paling dasar. Semakin besar nilainya, semakin besar kemungkinan data tersebut adalah outlier.
  • Kepadatan lokal lebih rendah dibandingkan tetangga
    Outlier biasanya berada di area yang lebih “sepi” dibandingkan lingkungan sekitarnya.
  • Tidak mengikuti pola cluster
    Data terlihat terpisah atau tidak menyatu dengan kelompok data lain.

Namun, penting untuk tidak langsung menghapus semua outlier. Dalam beberapa kasus, outlier justru mengandung informasi penting. Misalnya dalam fraud detection, transaksi yang berbeda dari pola umum justru menjadi fokus utama analisis.

Contoh Kasus Penggunaan LOF

LOF banyak digunakan di berbagai bidang karena kemampuannya mendeteksi anomali secara akurat. Salah satu contoh paling umum adalah dalam deteksi fraud pada transaksi keuangan. Dalam kasus ini, LOF digunakan untuk menemukan transaksi yang memiliki pola berbeda dari kebiasaan pengguna.

Misalnya, jika seseorang biasanya melakukan transaksi kecil di dalam negeri, lalu tiba-tiba melakukan transaksi besar di luar negeri, maka sistem bisa menandainya sebagai anomali. LOF akan melihat bahwa transaksi tersebut memiliki densitas yang berbeda dari pola sebelumnya.

Selain itu, LOF juga digunakan dalam:

  • Cybersecurity : mendeteksi aktivitas jaringan yang mencurigakan
  • Healthcare : menemukan data pasien yang tidak normal
  • IoT : mendeteksi sensor yang error

Baca Juga: Fraud Detection: Pengertian, Metode dan Cara Kerjannya

Perbandingan LOF dengan Metode Deteksi Outlier Lain

Berikut adalah tabel perbandingan yang bisa membantu kamu melihat perbedaannya secara lebih jelas:

MetodePendekatanKelebihanKekurangan
LOFKepadatan lokalAkurat untuk data kompleksSensitif terhadap parameter k
Z-ScoreStatistik (distribusi normal)Sederhana dan cepatTidak cocok untuk data non-linear
Isolation ForestRandom treeCepat untuk dataset besarKurang intuitif
DBSCANClustering berbasis densitasBisa deteksi cluster & outlierSulit tuning parameter

Secara praktis, pemilihan metode tergantung pada karakteristik data. Tidak ada algoritma yang selalu paling baik, tetapi LOF sering menjadi pilihan utama ketika kamu berhadapan dengan data yang kompleks dan tidak terstruktur dengan baik.

Kelebihan LOF

  • Mampu mendeteksi outlier secara lokal
    LOF tidak hanya melihat jarak global, tetapi juga membandingkan densitas lokal, sehingga lebih akurat untuk data kompleks.
  • Cocok untuk dataset dengan kepadatan bervariasi
    Ini menjadi keunggulan utama dibanding metode lain yang sering gagal pada distribusi tidak merata.
  • Tidak membutuhkan asumsi distribusi data
    Berbeda dengan Z-Score, LOF tidak mengharuskan data berdistribusi normal.

Kekurangan LOF

  • Sensitif terhadap parameter k
    Pemilihan jumlah tetangga sangat memengaruhi hasil. Salah memilih parameter bisa membuat deteksi tidak akurat.
  • Komputasi cukup mahal
    Karena harus menghitung jarak antar titik, LOF bisa menjadi lambat pada dataset besar.
  • Sulit diinterpretasikan untuk pemula
    Konsep densitas lokal dan reachability distance bisa terasa kompleks bagi yang baru belajar.

Baca Juga: Algoritma Isolation Forest dalam Machine Learning

Kesimpulan

Pada pembahasan kita di atas dapat kita simpulkan bahwa Local Outlier Factor (LOF) adalah salah satu algoritma terbaik dalam anomaly detection yang mampu mendeteksi outlier berdasarkan kepadatan lokal data. Dengan pendekatan ini, LOF tidak hanya melihat jarak, tetapi juga memahami konteks lingkungan data, sehingga sangat efektif digunakan pada dataset yang kompleks dan tidak merata.

Dalam praktik data science, penggunaan Local Outlier Factor sangat membantu dalam berbagai kasus seperti fraud detection, cybersecurity, hingga analisis data kesehatan. Dengan memahami cara kerja, kelebihan, dan keterbatasannya, kamu dapat memilih metode ini secara tepat untuk menghasilkan insight yang lebih akurat dan bernilai.

Artikel ini merupakan bagian dari seri Kecerdasan Buatan KantinIT.com. Jika artikel ini bermanfaat, jangan lupa bagikan ke media sosial atau ke teman kamu.

Subscribe to our Newsletter

Subscribe to our email newsletter to get the latest posts delivered right to your email.
Pure inspiration, zero spam ✨