Distance adalah salah satu konsep fundamental dalam matematika, statistika, dan ilmu komputer. Konsep ini dibutuhkan dalam berbagai bidang seperti machine learning, computer vision, dan data science. Dalam artikel ini, kita akan membahas tentang konsep distance, salah satu metric yang digunakan dalam machine learning, yaitu Mahalanobis Distance, dan cara menghitungnya menggunakan Excel.
Distance dalam Matematika
Distance (jarak) dalam matematika didefinisikan sebagai ukuran antara dua titik atau obyek. Dalam geometri, distance dapat dihitung sebagai akar kuadrat dari jumlah selisih kuadrat antara setiap koordinat dua titik. Misalnya, jika kita memiliki dua titik A(x1,y1) dan B(x2,y2), maka distance antara titik A dan B dapat dihitung sebagai:
Distance juga dapat dihitung dalam dimensi yang lebih tinggi seperti 3D, 4D, dan seterusnya. Dalam ilmu komputer, distance sering digunakan dalam machine learning untuk membandingkan antara data dan mencari data yang paling mirip.
Mahalanobis Distance dalam Machine Learning
Mahalanobis Distance adalah salah satu metric yang digunakan dalam machine learning untuk membandingkan antara data. Metrik ini ini didasarkan pada konsep statistik dan membantu dalam menghitung similarity antara data. Mahalanobis Distance menghitung jarak antara suatu titik dan dataset pada kondisi ketika kovarians antar variabel tidak sama dan metric yang digunakan menghitung kemiripan suatu titik dengan data train yang ada sebagai kerangka acuan. Rumus dari Mahalanobis Distance adalah sebagai berikut:
Di mana:
- x = data point yang ingin dihitung Mahalanobis Distance
- µ = mean vektor dari dataset (train data)
- S = matriks kovarians dari dataset (train data)
Salah satu keuntungan dari Mahalanobis Distance adalah bahwa metrik ini cocok untuk data yang memiliki covariates atau faktor yang berkorelasi. Dalam kolaborasi dengan machine learning, Mahalanobis Distance sering digunakan dalam algoritma k-Nearest Neighbor (k-NN) untuk menghitung jarak antara titik-titik data dan menentukan titik data yang paling mirip.
Cara Menghitung Mahalanobis Distance Menggunakan Excel
Excel menyediakan sejumlah formula untuk menghitung Mahalanobis Distance, diantaranya adalah formula COVARIANCE.P, MINVERSE, TRANSPOSE, SUMPRODUCT, dan masing-masing berfungsi menghitung matriks kovarians, inverse matriks kovarians, transpose matriks, dan akumulasi nilai matriks hasil perkalian tiap elemen dua buah matriks. Dalam formulasi Mahalanobis Distance menggunakan Excel tersebut, terlebih dahulu kita perlu menghitung nilai mean vektor dan matriks kovarians dari train data menjadi masukan dalam rumusnya. Berikut ini adalah tahapan cara menghitung Mahalanobis Distance menggunakan Excel:
Menentukan Range Data Train
Persiapkan data train dengan range sebanyak jumlah kolom variabel plus satu kolom sebagai kolom target kelasnya. Misalnya jika terdapat 4 variabel, maka range kolom data train akan dibuat sebanyak 5 kolom. Berikut contoh datanya:
Pada range tersebut terdapat 5 kolom dan 13 baris. Kolom 1 sampai 4 adalah variabel yang akan diperbandsingkan pada tiap titik data untuk menghitung Mahalanobis Distance. Kolom 5 adalah kolom target kelas terkait dengan tiap titik data yang akan digunakan dapat menguji coba model machine learning.
Menghitung Mean Vektor dari Train Data
Meskipun Excel memiliki formula untuk menghitung mean, kita juga bisa mengeksploitasi formula SUM dan COUNT untuk menghitung rata-rata vektor tiap variabel pada dataset sebagai mean vektor. Dalam contoh data di atas, kita dapat mengikuti langkah-langkah berikut:
- Pada kolom P, ketik formula =SUM(B2:B13)/COUNT(B2:B13)
- Salin formula tersebut ke kolom Q, R, dan S untuk menghitung rata-rata vektor untuk setiap variabel P, Q, R, dan S
- Pada kolom T, yang merupakan kolom target, ketik formula =AVERAGE(T2:T13)
- Tekan enter untuk menghasilkan average vector untuk target
Hasilnya akan terlihat seperti gambar di bawah ini:
Menghitung Matriks Kovarians
Selanjutnya kita menggunakan formula COVARIANCE.P di Excel untuk menghitung matriks kovarians dari train data. Berikut ini adalah langkah-langkahnya:
- Pada kolom X sampai kolom AA, ketik formula COVARIANCE.P dengan parameter range kolom P, Q, R, dan S, yang menghasilkan matrix kovarians sebagai matriks kovarians diagonal superiority square (matriks segitiga bawah pada diagonal nol).
- Matriks itu kemudian akan disalin ke range magenta X30:AA33 untuk mempermudah rumus Mahalanobis Distance yang akan kita susun di sel berikutnya.
Hasilnya akan terlihat seperti gambar di bawah ini:
Menghitung Inverse Matriks Kovarians
Setelah menghitung matriks kovarians, maka selanjutkan kita dapat menghitung inverse matriks kovarians menggunakan formula MINVERSE di Excel. Berikut langkah-langkahnya:
- Pada kolom AE sampai kolom AH, ketik formula MINVERSE dengan parameter range X30:AA33. Hasilnya adalah inverse matriks kovarians yang akan disalin ke range magenta AE30:AH33
Hasilnya akan terlihat seperti gambar di bawah ini:
Menghitung Transpose Matriks
Langkah selanjutnya adalah menghitung transpose matriks (t) sebagai bagian dari rumus Mahalanobis Distance di Excel. Caranya dengan menggunakan formula TRANSPOSE di Excel. Berikut ini adalah langkah-langkahnya:
- Di kolom AI, ketik formula TRANSPOSE dan beri parameter range AE30:AH33
- Tekan enter dan hasil matriks transpose ada di atasnya
Hasilnya akan terlihat seperti gambar di bawah ini:
Menghitung Mahalanobis Distance
Setelah kita memiliki mean vector, matriks kovarians, inverse matriks kovarians, dan matriks transpose, maka selanjutnya kita dapat menghitung Mahalanobis Distance menggunakan formula SUMPRODUCT di Excel. Berikut ini adalah langkah-langkahnya:
- Di kolom AK, ketik formula =MMULT($AE$30:$AH$33,TRANSPOSE($AI$30:$AI$33))
- Salin formula tersebut ke kolom AL untuk menghasilkan matriks hasil perkalian antara setiap titik data dengan inverse matriks kovarians.
- Di kolom AM, ketik formula =MMULT(AK2:AK4,$AE$30:$AH$33)
- Hasilnya adalah Mahalanobis Distance untuk setiap titik data
Hasilnya akan terlihat seperti gambar di bawah ini:
Dengan Mahalanobis Distance, kita dapat membandingkan antara titik-titik data dalam train data dan membuat model machine learning yang lebih akurat.
FAQ
1. Apa Itu Euclidean Distance dan Bagaimana Cara Menghitungnya?
Euclidean Distance adalah salah satu metric yang digunakan dalam machine learning untuk membandingkan antara data. Metrik ini ini didasarkan pada konsep geometri dan menggunakan rumus distance antara dua titik pada bidang Euclidean. Rumusnya adalah sebagai berikut:
Di mana:
- x1,y1 = koordinat titik pertama
- x2,y2 = koordinat titik kedua
2. Apa Bedanya Euclidean Distance dengan Mahalanobis Distance?
Perbedaan antara Euclidean Distance dan Mahalanobis Distance terletak pada asumsi dari data yang akan dicek. Euclidean Distance mengasumsikan data yang diukur adalah independent dan identically distributed (iid), sedangkan Mahalanobis Distance mengasumsikan bahwa data yang diukur bersifat dependent. Dalam Mahalanobis Distance, kita mengakui adanya korelasi antara variabel dalam data dan matriks kovarians yang digunakan dalam rumusnya tidak identitas.
Video Tutorial
Berikut video tutorial bagaimana cara menghitung Mahalanobis Distance menggunakan Excel: