Apa itu t-SNE dalam data science?

t-SNE adalah algoritma non-linear dimensionality reduction yang digunakan untuk memvisualisasikan data berdimensi tinggi ke ruang dua atau tiga dimensi dengan tetap mempertahankan struktur lokal antar titik. Metode ini populer untuk eksplorasi cluster dan visualisasi embedding neural network.

Siapa pencipta algoritma t-SNE?

Algoritma t-SNE diperkenalkan pada tahun 2008 oleh Laurens van der Maaten dan Geoffrey Hinton sebagai metode visualisasi data non-linear yang mampu mempertahankan kemiripan lokal secara lebih baik dibanding pendekatan linear seperti PCA.

Bagaimana cara kerja t-SNE?

t-SNE bekerja dengan mengubah jarak antar titik di ruang berdimensi tinggi menjadi probabilitas kemiripan menggunakan distribusi Gaussian, lalu memetakan titik ke ruang rendah menggunakan distribusi t-Student dan meminimalkan perbedaan distribusi tersebut melalui optimisasi KL Divergence.

Apa kelemahan utama t-SNE?

Kelemahan utama t-SNE adalah kompleksitas komputasi yang tinggi, sensitivitas terhadap parameter seperti perplexity dan learning rate, serta kurang baik dalam mempertahankan struktur global data sehingga jarak antar cluster tidak selalu representatif secara absolut.

t-SNE: Konsep, Cara Kerja, dan Implementasi

Di dunia data science dan machine learning, visualisasi bukan sekadar pelengkap laporan. Visualisasi adalah alat eksplorasi. Ketika berhadapan dengan dataset berdimensi tinggi misalnya ratusan hingga ribuan fitur otak manusia jelas tidak mampu membayangkannya secara langsung. Di sinilah teknik seperti t-SNE menjadi sangat penting. Metode ini membantu mereduksi dimensi data sehingga pola, cluster, dan struktur tersembunyi bisa terlihat dalam bentuk dua atau tiga dimensi.

Masalahnya, tidak semua teknik reduksi dimensi mampu mempertahankan struktur lokal data dengan baik. PCA misalnya, sering kali gagal menampilkan cluster yang sebenarnya terpisah. t-SNE hadir sebagai solusi untuk memvisualisasikan data kompleks secara lebih intuitif. Artikel ini akan membahas konsep, cara kerja, rumus, parameter penting, hingga studi kasus penggunaan t-SNE secara mendalam dan terstruktur.

Daftar Isi

Apa Itu t-SNE?

t-SNE adalah singkatan dari t-Distributed Stochastic Neighbor Embedding. Ini merupakan algoritma non-linear dimensionality reduction yang dirancang khusus untuk visualisasi data berdimensi tinggi ke ruang dua atau tiga dimensi. Berbeda dengan PCA yang berbasis proyeksi linear, t-SNE berfokus pada pelestarian struktur lokal data artinya titik-titik yang berdekatan di ruang asli akan tetap berdekatan di ruang hasil reduksi.

Algoritma ini diperkenalkan oleh Laurens van der Maaten dan Geoffrey Hinton pada tahun 2008. Tujuan utamanya adalah memetakan data berdimensi tinggi ke ruang rendah dengan tetap mempertahankan kemiripan antar titik. Jika dua data mirip di ruang asli, maka hasil embedding-nya juga akan dekat. Sebaliknya, jika dua data sangat berbeda, t-SNE akan mendorongnya menjauh.

Kenapa t-SNE begitu populer? Karena hasil visualisasinya sering kali menunjukkan cluster yang jelas dan mudah dipahami. Dalam praktik data science, t-SNE sering digunakan untuk:

Visualisasi embedding dari neural network
Analisis cluster eksploratif
Validasi hasil klasifikasi
Eksplorasi data biologis atau genomik

t-SNE bukan alat untuk training model prediktif, melainkan alat eksplorasi visual. Jadi, fokus utamanya adalah membantu pemahaman, bukan meningkatkan akurasi model.

Konsep Dasar t-SNE

Sebelum memahami cara kerja t-SNE, penting memahami konsep dasar yang mendasarinya.

Dimensionality Reduction

Dimensionality reduction adalah proses mengurangi jumlah fitur dalam dataset sambil mempertahankan informasi penting. Bayangkan data seperti titik-titik di ruang 100 dimensi. Mustahil divisualisasikan langsung. Dengan reduksi dimensi, data dipetakan ke ruang 2D atau 3D tanpa kehilangan struktur penting.

t-SNE melakukan ini dengan pendekatan non-linear, artinya hubungan antar data tidak diasumsikan linear seperti pada PCA.

Similarity dan Probabilitas

Alih-alih hanya menghitung jarak Euclidean, t-SNE mengubah jarak antar titik menjadi probabilitas kemiripan. Jika dua titik sangat dekat, probabilitas kemiripannya tinggi. Jika jauh, probabilitasnya rendah.

Pendekatan probabilistik ini membuat t-SNE lebih fleksibel dalam menangkap struktur lokal dibandingkan metode berbasis jarak langsung.

Distribusi Gaussian vs t-Student

Di ruang berdimensi tinggi, kemiripan dihitung menggunakan distribusi Gaussian. Namun di ruang rendah, t-SNE menggunakan distribusi t-Student dengan satu derajat kebebasan.

Kenapa? Karena distribusi t memiliki ekor lebih tebal (heavy tails), sehingga mampu mengatasi masalah crowding problem—yaitu ketika banyak titik menumpuk di pusat embedding.

KL Divergence

Untuk menyamakan distribusi probabilitas di ruang tinggi dan rendah, t-SNE meminimalkan Kullback-Leibler Divergence (KL Divergence). Ini adalah ukuran perbedaan antara dua distribusi probabilitas.

Semakin kecil nilai KL Divergence, semakin mirip struktur embedding dengan data asli.

Rumus t-SNE

Walaupun terlihat matematis, konsep rumus t-SNE sebenarnya bisa dipahami secara intuitif.

Probabilitas di Ruang Dimensi Tinggi

Probabilitas kemiripan antar titik i dan j di ruang tinggi dihitung menggunakan Gaussian:

$p_{j|i} = \frac{exp(-||x_i – x_j||^2 / 2\sigma^2)}{\sum_{k \neq i} exp(-||x_i – x_k||^2 / 2\sigma^2)}$

Artinya:

Jarak dihitung
Semakin dekat, nilai eksponensial semakin besar
Dinormalisasi menjadi probabilitas

Probabilitas di Ruang Dimensi Rendah

Di ruang rendah, digunakan distribusi t-Student:

$q_{ij} = \frac{(1 + ||y_i – y_j||^2)^{-1}}{\sum_{k \neq l}(1 + ||y_k – y_l||^2)^{-1}}$

Distribusi ini membuat titik yang jauh tetap memiliki pengaruh.

Fungsi Cost

Fungsi objektifnya adalah:

$KL(P || Q) = \sum p_{ij} \log \frac{p_{ij}}{q_{ij}}$

Tujuannya meminimalkan perbedaan antara P dan Q.

Secara sederhana:

Jika dua titik dekat di ruang asli, tapi jauh di embedding → penalti besar
Jika dua titik jauh di ruang asli → tidak terlalu dipermasalahkan

Inilah alasan t-SNE sangat baik dalam mempertahankan cluster lokal.

Cara Kerja t-SNE

t-SNE bekerja melalui beberapa tahapan sistematis:

Menghitung jarak antar data
Semua jarak antar titik dihitung menggunakan metrik seperti Euclidean distance.
Mengubah jarak menjadi probabilitas
Jarak dikonversi menjadi distribusi probabilitas menggunakan Gaussian.
Inisialisasi posisi acak di ruang rendah
Titik-titik dipetakan secara acak ke ruang 2D atau 3D.
Optimisasi dengan gradient descent
Posisi titik diperbarui untuk meminimalkan KL Divergence.
Iterasi hingga konvergen
Proses berulang ratusan hingga ribuan iterasi.

Karena menggunakan optimisasi iteratif, hasil t-SNE bisa berbeda setiap dijalankan (kecuali random state ditentukan).

Parameter dalam t-SNE

Beberapa parameter sangat memengaruhi hasil:

Perplexity
Mengontrol jumlah tetangga efektif. Biasanya antara 5–50. Nilai kecil menekankan struktur lokal.
Learning Rate
Jika terlalu kecil, konvergensi lambat. Jika terlalu besar, embedding bisa kacau.
Number of Iterations
Semakin banyak iterasi, semakin stabil hasilnya.
Random State
Mengontrol reproducibility.
Early Exaggeration
Membantu pembentukan cluster di tahap awal.

Parameter ini perlu eksperimen, tidak ada nilai universal yang selalu optimal.

Perbandingan t-SNE dengan Metode Lain

Aspek	t-SNE	PCA	UMAP	MDS
Tipe	Non-linear	Linear	Non-linear	Bisa linear/non-linear
Fokus	Struktur lokal	Variansi global	Lokal & global	Jarak
Kecepatan	Lambat	Cepat	Lebih cepat dari t-SNE	Sedang
Cocok untuk	Visualisasi	Reduksi awal	Visualisasi & clustering	Analisis jarak

Secara umum:

PCA cepat tapi kurang menangkap cluster kompleks
UMAP lebih cepat dan sering jadi alternatif modern
t-SNE unggul dalam visualisasi cluster lokal

Kelebihan t-SNE

Mampu menampilkan cluster dengan sangat jelas
Menjaga struktur lokal data
Sangat efektif untuk visualisasi embedding neural network

Kekurangan t-SNE

Lambat untuk dataset besar
Sensitif terhadap parameter
Tidak menjaga struktur global dengan baik

Studi Kasus Penggunaan t-SNE

Berikut ini merupakan studi kasus dalam penggunaan t-SNE:

Visualisasi MNIST
Dataset MNIST memiliki 784 fitur per gambar. Dengan t-SNE, digit yang sama membentuk cluster terpisah dengan jelas. Ini membuktikan kemampuan t-SNE dalam memetakan fitur kompleks menjadi visual intuitif.
Word Embedding
Embedding seperti Word2Vec berdimensi 300. Dengan t-SNE, kata-kata dengan makna mirip akan membentuk cluster semantik.
Clustering Genomik
Dalam bioinformatika, t-SNE digunakan untuk memvisualisasikan ekspresi gen ribuan fitur menjadi dua dimensi yang bisa dianalisis secara visual.

Kapan Sebaiknya Menggunakan t-SNE?

Saat eksplorasi awal dataset kompleks
Saat ingin memvisualisasikan output layer neural network
Saat menyajikan hasil riset dalam bentuk visual

t-SNE bukan alat untuk preprocessing model utama, melainkan alat eksplorasi.

Kesimpulan

Pada pembahasan kita di atas dapat kita simpulkan bahwa t-SNE adalah algoritma reduksi dimensi non-linear yang dirancang untuk mempertahankan struktur lokal data dalam bentuk visualisasi dua atau tiga dimensi. Dengan pendekatan probabilistik dan optimisasi KL Divergence, t-SNE mampu menghasilkan cluster yang jelas dan informatif, terutama untuk dataset kompleks seperti embedding neural network, citra, dan data biologis.

Walaupun memiliki kekurangan seperti sensitivitas parameter dan kompleksitas komputasi tinggi, t-SNE tetap menjadi standar emas dalam visualisasi data berdimensi tinggi. Dengan pemahaman konsep, rumus dasar, dan parameter pentingnya, penggunaan t-SNE bisa menjadi alat eksplorasi yang sangat kuat dalam workflow data science.

Artikel ini merupakan bagian dari seri artikel belajar Kecerdasan Buatan dan jika ada ide topik yang mau kami bahas silahkan komen di bawah ya..

What are You Looking For?

t-SNE: Konsep, Cara Kerja, dan Implementasi

Apa Itu t-SNE?