Di dunia data science dan machine learning, visualisasi bukan sekadar pelengkap laporan. Visualisasi adalah alat eksplorasi. Ketika berhadapan dengan dataset berdimensi tinggi misalnya ratusan hingga ribuan fitur otak manusia jelas tidak mampu membayangkannya secara langsung. Di sinilah teknik seperti t-SNE menjadi sangat penting. Metode ini membantu mereduksi dimensi data sehingga pola, cluster, dan struktur tersembunyi bisa terlihat dalam bentuk dua atau tiga dimensi.
Masalahnya, tidak semua teknik reduksi dimensi mampu mempertahankan struktur lokal data dengan baik. PCA misalnya, sering kali gagal menampilkan cluster yang sebenarnya terpisah. t-SNE hadir sebagai solusi untuk memvisualisasikan data kompleks secara lebih intuitif. Artikel ini akan membahas konsep, cara kerja, rumus, parameter penting, hingga studi kasus penggunaan t-SNE secara mendalam dan terstruktur.
Apa Itu t-SNE?
t-SNE adalah singkatan dari t-Distributed Stochastic Neighbor Embedding. Ini merupakan algoritma non-linear dimensionality reduction yang dirancang khusus untuk visualisasi data berdimensi tinggi ke ruang dua atau tiga dimensi. Berbeda dengan PCA yang berbasis proyeksi linear, t-SNE berfokus pada pelestarian struktur lokal data artinya titik-titik yang berdekatan di ruang asli akan tetap berdekatan di ruang hasil reduksi.
Algoritma ini diperkenalkan oleh Laurens van der Maaten dan Geoffrey Hinton pada tahun 2008. Tujuan utamanya adalah memetakan data berdimensi tinggi ke ruang rendah dengan tetap mempertahankan kemiripan antar titik. Jika dua data mirip di ruang asli, maka hasil embedding-nya juga akan dekat. Sebaliknya, jika dua data sangat berbeda, t-SNE akan mendorongnya menjauh.
Kenapa t-SNE begitu populer? Karena hasil visualisasinya sering kali menunjukkan cluster yang jelas dan mudah dipahami. Dalam praktik data science, t-SNE sering digunakan untuk:
- Visualisasi embedding dari neural network
- Analisis cluster eksploratif
- Validasi hasil klasifikasi
- Eksplorasi data biologis atau genomik
t-SNE bukan alat untuk training model prediktif, melainkan alat eksplorasi visual. Jadi, fokus utamanya adalah membantu pemahaman, bukan meningkatkan akurasi model.
Konsep Dasar t-SNE
Sebelum memahami cara kerja t-SNE, penting memahami konsep dasar yang mendasarinya.
Dimensionality Reduction
Dimensionality reduction adalah proses mengurangi jumlah fitur dalam dataset sambil mempertahankan informasi penting. Bayangkan data seperti titik-titik di ruang 100 dimensi. Mustahil divisualisasikan langsung. Dengan reduksi dimensi, data dipetakan ke ruang 2D atau 3D tanpa kehilangan struktur penting.
t-SNE melakukan ini dengan pendekatan non-linear, artinya hubungan antar data tidak diasumsikan linear seperti pada PCA.
Similarity dan Probabilitas
Alih-alih hanya menghitung jarak Euclidean, t-SNE mengubah jarak antar titik menjadi probabilitas kemiripan. Jika dua titik sangat dekat, probabilitas kemiripannya tinggi. Jika jauh, probabilitasnya rendah.
Pendekatan probabilistik ini membuat t-SNE lebih fleksibel dalam menangkap struktur lokal dibandingkan metode berbasis jarak langsung.
Distribusi Gaussian vs t-Student
Di ruang berdimensi tinggi, kemiripan dihitung menggunakan distribusi Gaussian. Namun di ruang rendah, t-SNE menggunakan distribusi t-Student dengan satu derajat kebebasan.
Kenapa? Karena distribusi t memiliki ekor lebih tebal (heavy tails), sehingga mampu mengatasi masalah crowding problem—yaitu ketika banyak titik menumpuk di pusat embedding.
KL Divergence
Untuk menyamakan distribusi probabilitas di ruang tinggi dan rendah, t-SNE meminimalkan Kullback-Leibler Divergence (KL Divergence). Ini adalah ukuran perbedaan antara dua distribusi probabilitas.
Semakin kecil nilai KL Divergence, semakin mirip struktur embedding dengan data asli.
Rumus t-SNE
Walaupun terlihat matematis, konsep rumus t-SNE sebenarnya bisa dipahami secara intuitif.
Probabilitas di Ruang Dimensi Tinggi
Probabilitas kemiripan antar titik i dan j di ruang tinggi dihitung menggunakan Gaussian:
Artinya:
- Jarak dihitung
- Semakin dekat, nilai eksponensial semakin besar
- Dinormalisasi menjadi probabilitas
Probabilitas di Ruang Dimensi Rendah
Di ruang rendah, digunakan distribusi t-Student:
Distribusi ini membuat titik yang jauh tetap memiliki pengaruh.
Fungsi Cost
Fungsi objektifnya adalah:
Tujuannya meminimalkan perbedaan antara P dan Q.
Secara sederhana:
- Jika dua titik dekat di ruang asli, tapi jauh di embedding → penalti besar
- Jika dua titik jauh di ruang asli → tidak terlalu dipermasalahkan
Inilah alasan t-SNE sangat baik dalam mempertahankan cluster lokal.
Cara Kerja t-SNE
t-SNE bekerja melalui beberapa tahapan sistematis:
- Menghitung jarak antar data
Semua jarak antar titik dihitung menggunakan metrik seperti Euclidean distance. - Mengubah jarak menjadi probabilitas
Jarak dikonversi menjadi distribusi probabilitas menggunakan Gaussian. - Inisialisasi posisi acak di ruang rendah
Titik-titik dipetakan secara acak ke ruang 2D atau 3D. - Optimisasi dengan gradient descent
Posisi titik diperbarui untuk meminimalkan KL Divergence. - Iterasi hingga konvergen
Proses berulang ratusan hingga ribuan iterasi.
Karena menggunakan optimisasi iteratif, hasil t-SNE bisa berbeda setiap dijalankan (kecuali random state ditentukan).
Parameter dalam t-SNE
Beberapa parameter sangat memengaruhi hasil:
- Perplexity
Mengontrol jumlah tetangga efektif. Biasanya antara 5–50. Nilai kecil menekankan struktur lokal. - Learning Rate
Jika terlalu kecil, konvergensi lambat. Jika terlalu besar, embedding bisa kacau. - Number of Iterations
Semakin banyak iterasi, semakin stabil hasilnya. - Random State
Mengontrol reproducibility. - Early Exaggeration
Membantu pembentukan cluster di tahap awal.
Parameter ini perlu eksperimen, tidak ada nilai universal yang selalu optimal.
Perbandingan t-SNE dengan Metode Lain
| Aspek | t-SNE | PCA | UMAP | MDS |
|---|---|---|---|---|
| Tipe | Non-linear | Linear | Non-linear | Bisa linear/non-linear |
| Fokus | Struktur lokal | Variansi global | Lokal & global | Jarak |
| Kecepatan | Lambat | Cepat | Lebih cepat dari t-SNE | Sedang |
| Cocok untuk | Visualisasi | Reduksi awal | Visualisasi & clustering | Analisis jarak |
Secara umum:
- PCA cepat tapi kurang menangkap cluster kompleks
- UMAP lebih cepat dan sering jadi alternatif modern
- t-SNE unggul dalam visualisasi cluster lokal
Kelebihan t-SNE
- Mampu menampilkan cluster dengan sangat jelas
- Menjaga struktur lokal data
- Sangat efektif untuk visualisasi embedding neural network
Kekurangan t-SNE
- Lambat untuk dataset besar
- Sensitif terhadap parameter
- Tidak menjaga struktur global dengan baik
Studi Kasus Penggunaan t-SNE
Berikut ini merupakan studi kasus dalam penggunaan t-SNE:
- Visualisasi MNIST
Dataset MNIST memiliki 784 fitur per gambar. Dengan t-SNE, digit yang sama membentuk cluster terpisah dengan jelas. Ini membuktikan kemampuan t-SNE dalam memetakan fitur kompleks menjadi visual intuitif. - Word Embedding
Embedding seperti Word2Vec berdimensi 300. Dengan t-SNE, kata-kata dengan makna mirip akan membentuk cluster semantik. - Clustering Genomik
Dalam bioinformatika, t-SNE digunakan untuk memvisualisasikan ekspresi gen ribuan fitur menjadi dua dimensi yang bisa dianalisis secara visual.
Kapan Sebaiknya Menggunakan t-SNE?
- Saat eksplorasi awal dataset kompleks
- Saat ingin memvisualisasikan output layer neural network
- Saat menyajikan hasil riset dalam bentuk visual
t-SNE bukan alat untuk preprocessing model utama, melainkan alat eksplorasi.
Kesimpulan
Pada pembahasan kita di atas dapat kita simpulkan bahwa t-SNE adalah algoritma reduksi dimensi non-linear yang dirancang untuk mempertahankan struktur lokal data dalam bentuk visualisasi dua atau tiga dimensi. Dengan pendekatan probabilistik dan optimisasi KL Divergence, t-SNE mampu menghasilkan cluster yang jelas dan informatif, terutama untuk dataset kompleks seperti embedding neural network, citra, dan data biologis.
Walaupun memiliki kekurangan seperti sensitivitas parameter dan kompleksitas komputasi tinggi, t-SNE tetap menjadi standar emas dalam visualisasi data berdimensi tinggi. Dengan pemahaman konsep, rumus dasar, dan parameter pentingnya, penggunaan t-SNE bisa menjadi alat eksplorasi yang sangat kuat dalam workflow data science.
Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..