Outlier biasanya diartikan sebagai titik data yang mencuat dari pola umum data. Atau dengan kata lain, outlier adalah nilai atau pengamatan yang terletak jauh dari nilai-nilai atau pengamatan lain pada suatu sampel atau populasinya. Kemunculan outlier di dalam data merupakan kejadian yang lazim terjadi, terutama di dalam data statistik. Sebagai contoh, pada suatu datase laba-rugi, terdapat keuntungan usaha yang luar biasa besar pada salah satu periode atau bulan tertentu yang jauh melebihi dari keuntungan pada bulan lain, maka hal tersebut adalah suatu contoh dari outlier.
Cara Mengidentifikasi Outlier
Outlier adalah nilai yang ekstrem dalam data, mungkin sangat rendah atau sangat tinggi dibandingkan nilai yang lain dalam kumpulan data yang sama. Biasanya, outlier tidak biasa dan bisa jadi merupakan kesalahan dalam pengumpulan dan pengolahan data atau suatu keadaan alam atau kejadian unik yang dapat dijelaskan dengan faktor yang lain dan lebih memungkinkan.
Bagaimana cara mengidentifikasi apa yang menjadi outlier dalam satu set data? Cara mengidentifikasinya sangat bervariasi dan terkadang sulit untuk diterapkan pada kumpulan data yang berbeda. Tetapi, berikut ini adalah beberapa metode yang umum digunakan dalam mengidentifikasi apa yang menjadi outlier:
-
Metode Diagram Kotak
Metode diagram kotak adalah metode yang umum digunakan untuk mengecek apakah ada nilai outlier pada suatu data. Dalam diagram kotak, kuantitatif data diwakili dalam bentuk persegi panjang dengan secara implisit menunjukkan kuartil pertama, median, dan kuartil ke-3, dengan garis-garis pada persegi panjang.
Gambar Diagram Kotak
Nilai outlier kemudian diidentifikasi berdasarkan aturan pengelasan Mild, Moderate, atau Extreme outlier atau berdasarkan IQR score. Mild outlier didefinisikan sebagai nilai yang berada diantara IQR (Inter Quartile Range) + 1.5IQR sampai IQR +3IQR. Moderate outlier adalah nilai yang terletak di antara IQR +3IQR sampai IQR +6IQR, sedangkan nilai extreme outlier adalah nilai yang terletak di atas IQR +6IQR.
Metode ini sangat mudah dilakukan dan efektif dalam mengidentifikasi nilai outlier pada data yang cukup simetris atau terdistribusi secara merata. Namun, metode ini kurang efektif untuk mengidentifikasi nilai outlier pada data yang terdistribusi tak simetris atau memiliki banyak noise.
-
Metode Box-Cox Transformasi
Metode Box-Cox transformasi adalah suatu metode yang digunakan untuk mengurangi kecendrungan atau pola pada data yang biasanya terdistribusi tak normal menjadi terdistribusi normal dengan mengubah eratnya cahaya pada dataset.
Gambar Box-Cox Transformasi
Dalam metode ini, data diuji terlebih dahulu untuk normalitas kemudian ditransformasi dengan menggunakan formula log atau Pangkat. Metode ini sangat berguna dalam menghilangkan atau mencegah kecendrungan atau pola pada data, sehingga sangat efektif dalam mengidentifikasi nilai outlier pada data yang terdistribusi tak simetris atau noisy.
-
Metode Regresi Residual Analysis
Metode regresi residual analysis yaitu suatu metode yang digunakan untuk menguji hubungan antara variabel dependen dan satu atau lebih variabel independen. Dalam metode ini, outlier biasanya ditentukan dengan menggunakan nilai Cook’s Distance. Cook’s distance menggambarkan seberapa besar dampak dari setiap observasi pada model yang dipilih.
Gambar Regresi Residual Analysis
Jika suatu titik data terletak jauh dari nilai Cook’s distance, maka hal tersebut dikategorikan sebagai nilai outlier. Metode ini lebih cocok digunakan untuk mengidentifikasi nilai outlier pada data yang memiliki banyak variabel independen.
Cara Menangani Outlier
Menghilangkan atau mempertahankan suatu outlier dalam suatu data sangat tergantung pada kasus atau kejadian dimana data diperoleh. Ada beberapa cara untuk menangani nilai outlier:
-
Menghapus Outlier
Cara yang paling umum dalam menangani outlier adalah dengan menghapus nilai tersebut. Namun, penghapusan nilai ini harus dilakukan dengan hati-hati karena menghapus outlier dapat memiliki dampak signifikan pada keputusan bisnis atau keputusan lain yang didasarkan pada data tersebut. Secara umum, menghapus outlier hanyalah pilihan terakhir dan hanya dilakukan jika outlier tersebut mengganggu analisis data atau hasil yang diinginkan.
-
Merubah Outlier
Selain menghapus nilai outlier, outlier juga dapat dirubah atau diganti dengan nilai yang ditentukan dari nilai-nilai lain dalam data. Cara ini disebut dengan data imputasi. Namun, perlu disebutkan kembali bahwa cara ini hanya digunakan jika outlier tersebut tidak terbiasa atau dipengaruhi oleh error penelitian atau error measuremen lain.
-
Menyebut outlier merupakan nilai unik
Outlier mungkin merupakan nilai yang unik dalam suatu data. Hal ini dapat terjadi pada data yang relevan dan valid. Pada kasus seperti ini, outliers disebut sebagai nilai yang unik dan sangat penting dalam melakukan keputusan bisnis atau keputusan lain yang dibuat berdasarkan data. Dalam kasus seperti ini, outlier dapat memungkinkan Anda untuk mengeksplorasi atau menemukan tren atau kisah yang unik dari data. Cukup sulit untuk menentukan kapan Anda harus menghapus atau menyimpan outlier. Hal ini sangat tergantung pada situasi atau kejadian dimana outlier telah ditemukan.
FAQ
Apa yang dimaksud dengan outlier dalam statistika?
Outlier adalah nilai atau pengamatan yang terletak jauh dari nilai-nilai atau pengamatan lain pada suatu sampel atau populasinya. Kemunculan outlier di dalam data merupakan kejadian yang lazim terjadi, terutama di dalam data statistik.
Apa pengaruh outlier dalam analisis data?
Outlier dapat memiliki dampak signifikan pada keputusan bisnis atau keputusan lain yang didasarkan pada data tersebut. Outlier dapat mempengaruhi hasil analisis seperti varian, rata-rata, dan sebaran data. Ada kalanya outlier merupakan hasil yang salah, sehingga menghilangkan atau merubahnya menjadi nilai lain menjadi solusi terbaik untuk menghasilkan analisis yang tepat.