Naive Bayes merupakan salah satu algoritma machine learning yang cukup populer dan banyak digunakan dalam berbagai aplikasi, seperti klasifikasi spam email, sentiment analysis, dan lain sebagainya. Salah satu jenis naive bayes yang sering digunakan adalah gaussian naive bayes, yang digunakan untuk data yang kontinu. Pada artikel ini, kami akan membahas cara menghitung gaussian naive bayes menggunakan excel.
Gambar Ilustrasi Gaussian Naive Bayes
Cara Menghitung Gaussian Naive Bayes Menggunakan Excel
Langkah-langkah untuk menghitung gaussian naive bayes menggunakan excel adalah sebagai berikut:
1. Menghitung mean dan standar deviasi dari masing-masing atribut
Pertama, kita perlu menghitung mean dan standar deviasi dari masing-masing atribut pada dataset. Misalnya, kita memiliki dataset sebagai berikut:
Id | Atribut 1 | Atribut 2 | Kelas |
---|---|---|---|
1 | 2 | 4 | 0 |
2 | 3 | 5 | 0 |
3 | 1 | 3 | 1 |
4 | 4 | 2 | 1 |
Kita akan menghitung mean dan standar deviasi dari atribut 1 dan atribut 2. Untuk menghitung mean, kita dapat menggunakan rumus berikut:
mean = Σx / n
dimana x adalah nilai dari atribut, dan n adalah jumlah data yang ada. Sehingga untuk menghitung mean dari atribut 1, kita dapat menggunakan rumus berikut:
mean(atriubt 1) = (2 + 3 + 1 + 4) / 4 = 2.5
Sedangkan untuk menghitung standar deviasi, kita dapat menggunakan rumus berikut:
standar deviasi = √(Σ(xi – mean)² / (n – 1))
Sehingga untuk menghitung standar deviasi dari atribut 1, kita dapat menggunakan rumus berikut:
standar deviasi(atribut 1) = √(((2 – 2.5)² + (3 – 2.5)² + (1 – 2.5)² + (4 – 2.5)²) / (4 – 1)) = 1.28
Kita dapat menggunakan rumus yang sama untuk menghitung mean dan standar deviasi dari atribut 2.
2. Menghitung likelihood
Setelah kita mendapatkan mean dan standar deviasi dari masing-masing atribut, langkah selanjutnya adalah menghitung likelihood dari setiap atribut untuk setiap kelas yang ada. Untuk menghitung likelihood dari atribut yang bernilai x terhadap kelas y, kita dapat menggunakan rumus berikut:
P(x|y) = 1 / (√(2π) * standar deviasi(y))) * e^-((x – mean(y))² / 2 * standar deviasi(y)²)
Sehingga untuk menghitung likelihood dari atribut 1 yang bernilai 2 untuk kelas 0, kita dapat menggunakan rumus berikut:
P(2|0) = 1 / (√(2π) * 1.28)) * e^-((2 – 2.5)² / 2 * 1.28²) = 0.19
Kita dapat menggunakan rumus yang sama untuk menghitung likelihood dari atribut 1 untuk kelas 1, dan untuk menghitung likelihood dari atribut 2 untuk kelas 0 dan kelas 1.
3. Menghitung prior probability
Selanjutnya, kita perlu menghitung prior probability dari masing-masing kelas pada dataset. Prior probability dapat dihitung dengan rumus:
P(y) = count(y) / n
Dimana count(y) adalah jumlah data pada dataset yang memiliki kelas y, dan n adalah jumlah total data pada dataset. Sehingga misalnya, untuk menghitung prior probability untuk kelas 0, kita dapat menggunakan rumus berikut:
P(0) = 2 / 4 = 0.5
Untuk menghitung prior probability untuk kelas 1, kita dapat menggunakan rumus berikut:
P(1) = 2 / 4 = 0.5
4. Menghitung posterior probability
Setelah kita mendapatkan likelihood dan prior probability dari masing-masing atribut dan kelas, maka selanjutnya kita dapat menghitung posterior probability, yaitu probabilitas dari setiap kelas untuk setiap data pada dataset. Posterior probability dapat dihitung menggunakan rumus:
P(y|x1,x2) = P(x1|y) * P(x2|y) * P(y)
Sehingga untuk menghitung posterior probability untuk data dengan atribut 1 bernilai 2 dan atribut 2 bernilai 4, kita dapat menggunakan rumus berikut:
P(0|2,4) = P(2|0) * P(4|0) * P(0) = 0.19 * 0.12 * 0.5 = 0.0114
Kita dapat menggunakan rumus yang sama untuk menghitung posterior probability untuk setiap data pada dataset.
Menghitung Naive Bayes dengan Excel Atribut Data Numerik
Selain menggunakan rumus-rumus yang telah dijelaskan sebelumnya, kita juga dapat menghitung naive bayes dengan menggunakan excel. Salah satu contoh penggunaannya adalah untuk dataset dengan atribut data numerik.
Gambar Contoh Dataset
Misalnya, kita memiliki dataset dengan atribut berupa tinggi badan dan berat badan, serta kelas yang terdiri dari laki-laki dan perempuan. Kita dapat menghitung naive bayes untuk dataset ini dengan menggunakan rumus-rumus yang telah dijelaskan sebelumnya, atau dengan menggunakan excel.
Langkah-langkah untuk menghitung naive bayes dengan excel pada dataset dengan atribut data numerik adalah sebagai berikut:
1. Membuat Tabel Data
Pertama-tama, buatlah tabel data pada excel dengan kolom-kolom sebagai berikut:
- Kolom A: nomor urut
- Kolom B: tinggi badan
- Kolom C: berat badan
- Kolom D: kelas
2. Menghitung Mean dan Standar Deviasi
Langkah selanjutnya adalah menghitung mean dan standar deviasi dari masing-masing atribut pada dataset. Kita dapat menggunakan rumus-rumus yang telah dijelaskan sebelumnya, atau dengan menggunakan fungsi excel seperti AVERAGE dan STDEV.S. Misalnya, untuk menghitung mean dari atribut tinggi badan, kita dapat menggunakan rumus:
=AVERAGE(B2:B11)
Sedangkan untuk menghitung standar deviasi dari atribut tinggi badan, kita dapat menggunakan rumus:
=STDEV.S(B2:B11)
Kita dapat menggunakan rumus yang sama untuk menghitung mean dan standar deviasi dari atribut berat badan.
3. Menghitung Likelihood
Setelah kita mendapatkan mean dan standar deviasi dari masing-masing atribut, langkah selanjutnya adalah menghitung likelihood dari setiap atribut untuk setiap kelas yang ada. Kita dapat menggunakan rumus-rumus yang telah dijelaskan sebelumnya, atau dengan menggunakan fungsi excel seperti NORM.DIST untuk menghitung probabilitas distribusi normal.
Misalnya, untuk menghitung likelihood dari atribut tinggi badan dengan nilai 168 untuk kelas laki-laki, kita dapat menggunakan rumus:
=NORM.DIST(168,$G$4,$H$4,FALSE)*NORM.DIST(71,$G$5,$H$5,FALSE)*$G$2
Dimana cell G4 dan H4 berisi nilai mean dan standar deviasi dari atribut tinggi badan untuk kelas laki-laki, cell G5 dan H5 berisi nilai mean dan standar deviasi dari atribut berat badan untuk kelas laki-laki, dan cell G2 berisi nilai prior probability untuk kelas laki-laki.
Kita dapat menggunakan rumus yang sama untuk menghitung likelihood dari atribut berat badan untuk kelas laki-laki, serta untuk menghitung likelihood dari atribut tinggi badan dan berat badan untuk kelas perempuan.
4. Menghitung Prior Probability
Selanjutnya, kita perlu menghitung prior probability dari masing-masing kelas pada dataset. Kita dapat menggunakan rumus yang telah dijelaskan sebelumnya, atau dapat masukkan nilai prior probability langsung pada tabel excel.
5. Menghitung Posterior Probability
Setelah kita mendapatkan likelihood dan prior probability dari masing-masing atribut dan kelas, maka selanjutnya kita dapat menghitung posterior probability dengan menggunakan rumus-rumus yang telah dijelaskan sebelumnya, atau dengan menggunakan fungsi excel seperti SUMPRODUCT.
Misalnya, untuk menghitung posterior probability untuk data pada baris ke-2 dengan atribut tinggi badan 168 dan berat badan 71, kita dapat menggunakan rumus:
=SUMPRODUCT($E$2:$E$3,(C2:D2=$G$7)*(C3:D3=$H$7)*$F$2:$F$3)
Dimana cell E2:E3 berisi likelihood untuk kelas laki-laki dan perempuan, cell C2:D2 dan C3:D3 berisi nilai dari atribut tinggi badan dan berat badan pada dataset, dan cell F2:F3 berisi nilai prior probability untuk kelas laki-laki dan perempuan.
Kita dapat menggunakan rumus yang sama untuk menghitung posterior probability untuk setiap data pada dataset.
FAQ
Pertanyaan 1: Apa Itu Naive Bayes?
Jawaban: Naive Bayes merupakan salah satu algoritma machine learning yang banyak digunakan dalam berbagai aplikasi, seperti klasifikasi spam email, sentiment analysis, dan sebagainya. Algoritma ini berdasarkan pada teorema bayes, yang dapat digunakan untuk menghitung probabilitas dari suatu kejadian berdasarkan probabilitas dari kejadian-kejadian yang terkait.
Pertanyaan 2: Apa Perbedaan Antara Gaussian Naive Bayes dan Non-Gaussian Naive Bayes?
Jawaban: Gaussian naive bayes digunakan untuk data yang kontinu (numerik), sedangkan non-gaussian naive bayes digunakan untuk data yang diskrit (kategorik). Gaussian naive bayes mengasumsikan bahwa setiap atribut memiliki distribusi normal, sedangkan non-gaussian naive bayes tidak melakukan asumsi ini.
Video
Berikut ini adalah video tentang cara menghitung Gaussian Naive Bayes menggunakan excel: