CARA NORMALISASI DATA DI EXCEL

3 Metode Normalisasi Data di Python | Tutorial IlmudataPy untuk Pemula!

3 Metode Normalisasi Data di Python

Banyak cara yang dapat dilakukan untuk mengolah data agar hasil analisisnya lebih akurat. Salah satunya adalah normalisasi data atau feature scaling. Normalisasi digunakan untuk mengubah data menjadi rentang nilai tertentu tanpa mengubah bentuk atau distribusi data. Dalam artikel ini, kita akan membahas 3 metode normalisasi data di Python.

Metode 1: Min-Max Scaling

Definisi

Metode pertama adalah Min-Max Scaling atau Min-Max Normalization. Metode ini mengubah data menjadi rentang 0 hingga 1 dengan menggunakan rumus:

x_baru = (x-min)/(max-min)

Dimana x_baru adalah nilai data yang sudah dinormalisasi, x adalah nilai data awal, min adalah nilai terkecil dari data, dan max adalah nilai tertinggi dari data. Dengan metode ini, data dengan nilai terkecil akan menjadi 0 dan data dengan nilai tertinggi akan menjadi 1.

Contoh

Contoh penggunaan metode ini dapat dilihat dalam kode berikut:

“`
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# membuat dataset
data = pd.DataFrame(‘Berat’: [50, 60, 70, 80, 90],
‘Tinggi’: [150, 160, 170, 180, 190])

# inisiasi scaler
scaler = MinMaxScaler()

# fit dan transform data
normalized_data = scaler.fit_transform(data)

# membuat dataframe dari normalized data
normalized_data = pd.DataFrame(normalized_data, columns=[‘Berat Normalized’, ‘Tinggi Normalized’])

print(normalized_data)
“`

Hasilnya adalah sebagai berikut:

Berat Normalized Tinggi Normalized
0 0.000000 0.000000
1 0.333333 0.333333
2 0.666667 0.666667
3 1.000000 1.000000
4 1.000000 1.000000

Metode 2: Z-Score Normalization

Definisi

Metode kedua adalah Z-Score Normalization atau Standard Score. Metode ini mengubah data menjadi distribusi normal atau standar dengan menggunakan rumus:

Baca Juga :  Cara Membuat Data Falidasi Di Excel

x_baru = (x-rata)/(standar_deviasi)

Dimana x_baru adalah nilai data yang sudah dinormalisasi, x adalah nilai data awal, rata adalah rata-rata dari data, dan standar_deviasi adalah standar deviasi dari data. Dengan metode ini, data akan memiliki nilai rata-rata 0 dan standar deviasi 1. Dalam distribusi normal, sekitar 68% data berada dalam rentang nilai 1 standar deviasi dari rata-rata.

Contoh

Contoh penggunaan metode ini dapat dilihat dalam kode berikut:

“`
import pandas as pd
from sklearn.preprocessing import StandardScaler

# membuat dataset
data = pd.DataFrame(‘Berat’: [50, 60, 70, 80, 90],
‘Tinggi’: [150, 160, 170, 180, 190])

# inisiasi scaler
scaler = StandardScaler()

# fit dan transform data
normalized_data = scaler.fit_transform(data)

# membuat dataframe dari normalized data
normalized_data = pd.DataFrame(normalized_data, columns=[‘Berat Normalized’, ‘Tinggi Normalized’])

print(normalized_data)
“`

Hasilnya adalah sebagai berikut:

Berat Normalized Tinggi Normalized
0 -1.264911 -1.264911
1 -0.632456 -0.632456
2 0.000000 0.000000
3 0.632456 0.632456
4 1.264911 1.264911

Metode 3: Decimal Scaling

Definisi

Metode ketiga adalah Decimal Scaling. Metode ini mengubah data menjadi rentang 0 hingga 1 dengan membagi data dengan 10 pangkat n, dimana n adalah jumlah angka maksimum dalam data. Misalnya pada dataset dengan rentang nilai 100 hingga 1000, n adalah 4. Dengan metode ini, rentang nilai data akan selalu sama dan hanya akan bergeser koma ke kiri atau kanan.

Contoh

Contoh penggunaan metode ini dapat dilihat dalam kode berikut:

“`
import pandas as pd

# membuat dataset
data = pd.DataFrame(‘Berat’: [50, 60, 70, 80, 90],
‘Tinggi’: [150, 160, 170, 180, 190])

# mencari n
n = len(str(data.max().max()))

# normalisasi data
normalized_data = data / (10 ** n)

# membuat dataframe dari normalized data
normalized_data = pd.DataFrame(normalized_data, columns=[‘Berat Normalized’, ‘Tinggi Normalized’])

print(normalized_data)
“`

Hasilnya adalah sebagai berikut:

Berat Normalized Tinggi Normalized
0 0.005 0.15
1 0.006 0.16
2 0.007 0.17
3 0.008 0.18
4 0.009 0.19
Baca Juga :  Cara Memperbaiki Excel Tidak Bisa Menyimpan Data

FAQ

Apa itu normalisasi data?

Normalisasi data adalah proses mengubah data menjadi nilai yang dapat dibandingkan dan diproses lebih mudah. Normalisasi data menggunakan metode tertentu untuk mengubah data menjadi rentang nilai tertentu tanpa mengubah bentuk atau distribusi data.

Kenapa perlu melakukan normalisasi data?

Normalisasi data perlu dilakukan agar hasil analisis data lebih akurat. Beberapa algoritma machine learning membutuhkan data yang sudah dinormalisasi untuk menghasilkan hasil yang lebih baik. Normalisasi data juga dapat membantu dalam menghindari overfitting atau underfitting pada model machine learning.

Video Tutorial