Dalam distribusi data mungkin kita akan menjumpai outlier, sebuah data yang jauh di atas atau di bawah nilai batas atas / nilai batas bawah rerata distribusi. Pada saat menemukan data outlier, ada dua kemungkinan awal yaitu data dihasilkan dari sebuah kesalahan pengukuran atau sebuah kejadian aktual yang harus diketahui penyebabnya. Dalam pengujian parametrik, tentu outlier ini akan mempengaruhi nilai ukuran kesetimbangan atau ukuran pemusatan yang terjadi. Penghitungan rerata (mean) untuk menghilangkan pengaruh outlier pun dilakukan seperti winsorized mean atau trimmed mean.
Bagaimana melakukan identifikasi terhadap outlier. Kita dapat melakukannya dengan bantuan visualisasi data. Scatter plot dan box plot cukup bagus menemukan data outlier.

Adanya outlier bukan sekedar dihilangkan sehingga data dapat di”uji” agar memenuhi asumsi normalitas. Namun ide dasar utama adalah menemukan adanya nilai data yang jauh di atas atau di bawah batas atas / batas bawah rerata distribusi tersebut. Sehingga dapat ditemukan solusi, tindakan atau kebijakan yang tepat. Bukan untuk memangkas atau menghilangkannya.
Pada kasus tertentu, memangkas atau menghilangkan outlier akan membuat kita ‘abai’ terhadap adanya outlier itu sendiri. Statistics hendaknya tetap harus memberikan tampilan yang utuh, sehingga outlier dapat diketahui dengan benar letak dan posisinya. Apabila terdapat outlier dalam data statistics kita, tentu tidak elok kita hanya memangkasnya. Karena kewajiban kita memberikan makna sehingga posisi itu mampu masuk dalam ruang distribusi normal yang ada. Khususnya untuk data outlier yang memiliki nilai jauh di bawah batas bawah rerata distribusi, sehingga minimal memiliki nilai sama dengan nilai batas bawah, sebagaimana diformulakan dalam winsorized mean. Namun tentu tidak semua jenis data dapat menggunakan gagasan ini. Bagaimana menurut Anda ? (unung@enciety.com)

