Anda di halaman 1dari 9

PRE-PROCESSING DATA KASUS OUTLIER

PRE-PROCESSING DATA KASUS OUTLIER Disusun oleh: Muhammad Luthfi SP (1315201203) Adhi Muhtadi (3116301007) Mata Kuliah:

Disusun oleh:

Muhammad Luthfi SP (1315201203) Adhi Muhtadi (3116301007)

Mata Kuliah:

Analisis Multivariat

Dosen Pengampu:

Santi Wulan Purnami, M.Si, Ph.D / Dr.rer.pol. Dedy Dwi P., M.Si

PROGRAM STUDI PASCASARJANA JURUSAN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA

2016

Data dapat dikatakan sebagai suatu kebutuhan bagi seorang statistikawan, bahkan hal ini turut berlaku bagi mereka yang tidak berkecimpung di lingkup statistika. Seiring dengan rumitnya proses dalam mengumpulkan data, tidak selamanya data yang diperoleh akan lengkap dan sesuai ekspektasi periset. Beragamnya kasus ini mendorong para peneliti untuk menemukan metode-metode yang dapat digunakan dalam melakukan pra-pengolahan data. Dengan begitu, data siap diolah dan dapat menghasilkan suatu keputusan yang bersifat representatif untuk menaksir populasi.

Namun, dalam melakukan pengolahan data biasanya terdapat asumsi-asumsi yang harus dipenuhi. Ketika asumsi yang disyaratkan tidak terpenuhi, maka harus dilakukan perbaikan atau transformasi untuk memenuhi asumsi-asumsi yang ada sehingga data siap diolah. Salah satu analisis yang sering digunakan adalah analisis multivariat dimana analisis ini melibatkan lebih dari satu variabel random yang diukur secara serentak dan saling berkorelasi. Dalam analisis multivariat, beberapa asumsi yang perlu dipenuhi antara lain data berdistribusi normal multivariat, bersifat homogen, dan tidak mengandung outlier. Pada pembahasan ini, akan diuraikan mengenai pengaruh outlier serta langkah-langkah untuk

mengidentifikasinya.

1. Pengaruh Outlier

Pencilan atau outlier adalah sekumpulan observasi yang teridentifikasi nyata memiliki perbedaan dibanding observasi lainnya. Perbedaan yang muncul dapat terlihat dari tinggi atau

rendahnya nilai pada suatu variabel atau kombinasi nilai antar variabel yang membuat suatu observasi berbeda dari observasi lainnya. Menurut Hair et al.(2010), outlier dapat disebabkan oleh beberapa peristiwa berikut.

a. Kesalahan prosedural, seperti kesalahan dalam memasukkan data atau mengkonversi data berskala nominal/ordinal ke dalam koding. Biasanya terdeteksi pada tahap pra- pengolahan data dan dapat diantisipasi dengan dieliminasi atau dianggap sebagai missing value.

b. Kejadian luar biasa yang dapat ditelusuri penyebabnya dan diketahui secara pasti.

c. Kejadian luar biasa yang penyebabnya tidak diketahui secara pasti.

d. Wajar jika dianalisis secara univariat, namun menjadi tidak wajar jika dianalisis secara

multivariat. Outlier jenis ini lebih direkomendasikan untuk tetap dipertahankan karena dikhawatirkan dapat mengganggu kestabilan dataset. Dalam menyelidiki pengaruh outlier terhadap data, perlu dipertimbangkan dari aspek praktikal dan substansial (dasar). Outlier dapat dipandang memiliki pengaruh positif, meski lebih sering berpengaruh negatif. Kehadiran outlier memberikan gambaran bahwa

karakteristik populasi sangat beragam (sebagai contoh distribusi pendapatan di suatu kota), namun outlier yang terlampau banyak seringkali menyebabkan statistik uji menjadi tidak reliabel dan penarikan kesimpulan menjadi samar. Dengan demikian, periset perlu memiliki kecakapan dalam membedakan outlier mana yang perlu dipertahankan, dieliminasi atau di- treat dengan metode yang tetap mempertahankan representasi data terhadap populasi.

2. Langkah-langkah Identifikasi Outlier Berdasarkan Hair et al. (2010), terdapat beberapa metode untuk mengidentifikasi

kehadiran outlier dari segi banyak variabel yang terlibat, yaitu univariat, bivariat dan multivariat. Berikut ini merupakan penjelasan mengenai langkah-langkah mengidentifikasi outlier untuk ketiga metode.

a. Univariat

Metode ini memeriksa distribusi observasi untuk masing-masing variabel dan mengidentifikasi kehadiran outlier dari adanya satu atau sekelompok observasi yang nilainya sangat berbeda dari observasi lain. Beberapa cara yang dapat digunakan adalah

1)

Menentukan outlier dari suatu threshold (nilai ambang) yang sudah dirancang. Misal

2)

dengan menggunakan 2,5σ atau 4σ, tergantung ukuran sampel. Melakukan standarisasi sehingga kehadiran outlier lebih mudah untuk teridentifikasi

3)

sebab range data menjadi lebih mudah untuk dipantau. Bagi outlier yang berada di luar rentang (-2,5 , 2,5) untuk sampel berukuran 80 atau kurang dan bagi outlier yang berada di luar rentang (-4 , 4) untuk sampel berukuran relatif besar, dapat dicurigai sebagai outlier. Membuat box plot sebab plot ini memberikan peneliti lebih banyak gambaran observasi mana yang berada di luar kuartil pertama atau ketiga dan seberapa besar jarak observasi yang ekstrem tersebut terhadap kuartil sehingga patut untuk dicurigai sebagai outlier.

b.

Bivariat

Metode ini digunakan dengan membandingkan nilai observasi antara dua variabel. Teknik yang digunakan adalah dengan membuat scatter plot sehingga observasi yang dicurigai sebagai outlier akan berada pada daerah yang terisolasi atau menjauhi kelompok observasi lainnya. Teknik lain adalah dengan memadukan scatter plot dan selang kepercayaan dengan tingkat kepercayaan tertentu pada scatter plot yang sama (overlay graph) sehingga observasi-observasi yang berada di luar selang dapat teridentifikasi dengan mudah. Namun demikian, metode ini sangat menyita waktu jika variabel yang diteliti relatif banyak. Untuk menyiasatinya, scatter plot yang dibuat disarankan hanya antara variabel dependen dan independen saja.

c. Multivariat Pada kasus banyak variabel, metode ini lebih direkomendasikan sebab dapat menutupi kelemahan metode univariat dan bivariat serta memberikan ukuran yang lebih objektif terkait posisi suatu observasi dari sudut pandang variabel yang beragam (multidimensi). Pendeteksian outlier diperbantukan oleh suatu ukuran yang disebut Mahalanobis D 2 . Dari segi interpretasi, Mahalanobis D 2 memiliki karakteristik statistik yang memungkinkan untuk dilakukannya pengujian hipotesis. Nilai D 2 yang dibagi dengan jumlah variabel (D 2 /df) yang digunakan kira-kira mengikuti distribusi t. Berdasarkan konsep statistik uji, disarankan untuk menggunakan tingkat kepercayaan yang konservatif (sangat tinggi) misalnya 99,5% atau 99,9% untuk mengidentifikasi keberadaan outlier. Dengan kata lain, observasi yang memiliki nilai D 2 /df lebih dari 2.5 (sampel kecil) dan 3 atau 4 (sampel besar) dapat diidentifikasi sebagai sebuah kemungkinan outlier. Jadi, nilai D 2 yang tinggi mengindikasikan keberadaan outlier yang menyimpang jauh dari distribusi seluruh observasi pada ruang multivariat. Tetapi, metode ini tidak dapat memberikan gambaran variabel mana yang menyebabkan tingginya nilai D 2 .

3. Cara mengatasi Outlier

Begitu observasi yang dicurigai sebagai outlier teridentifikasi, maka peneliti direkomendasikan untuk menelusuri variabel mana yang mengakibatkan hal tersebut. Jika diperlukan, outlier tersebut dapat diklasifikasikan ke salah satu dari 4 tipe outlier sehingga

akan lebih memudahkan penanganan terhadap outlier tersebut. Meskipun beberapa metode memiliki kemampuan dalam mengatasi outlier seperti regresi robust pada tahap pemodelan, namun metode untuk mengatasi outlier di tahap pra-pemrosesan data belum cukup banyak dijumpai. Cara mengatasi outlier berdasarkan Hair et al. (2010) lebih condong pada penyelesaian klasik, yaitu mempertahankan atau mengeliminasi outlier. Sekelompok observasi yang outlier sebaiknya dipertahankan kecuali pengaruhnya sangat nyata terhadap penarikan kesimpulan dan tidak merepresentasikan karakteristik apapun dalam populasi. Sebaliknya, jika outlier tersebut merupakan bagian yang turut merepresentasikan populasi, maka outlier tersebut baiknya dipertahankan. Sebagai contoh, distribusi pendapatan di sebagian besar negara berkembang kemungkinan didominasi oleh milyarder yang persentasenya tidak lebih dari 5% populasi penduduk negara tersebut. Namun, jika sekelompok orang ini tidak dianggap sebagai bagian dari populasi, maka akan mengganggu keragaman data sehingga hasil analisis mengenai penelitian yang berhubungan dengan pendapatan menjadi bias.

4.

Contoh kasus Berikut ini merupakan ilustrasi untuk mengidentifikasi dan menangani kasus outlier

dengan data HBAT (konteks pemodelan regresi) yang berisikan variabel X6 hingga X19

dimana X19 merupakan variabel dependen, sementara X6 hingga X16 merupakan variabel independen. Analisis outlier mencakup metode univariat, bivariat dan multivariat, sehingga dapat memperkaya khasanah untuk mengidentifikasi outlier dari beragam aspek.

a. Metode univariat Langkah pertama adalah memeriksa karakteristik observasi di masing-masing variabel. Pada kasus ini, akan dilakukan pengidentifikasian outlier berdasarkan 3 teknik yang sudah disebutkan sebelumnya, yaitu data yang distandarkan dan box plot. Tabel 1 berikut merupakan summary nilai standarisasi seluruh observasi per 14 variabel yang berada di luar selang (-2,5 , 2,5).

Tabel 1. Observasi yang Berada di Luar Selang (-2,5 , 2,5)

Variabel

Observasi yang keluar

Variabel

Observasi yang keluar

X6

Tidak ada

X13

Tidak ada

X7

13,22,90

X14

77

X8

87

X15

6,53

X9

Tidak ada

X16

24

X10

Tidak ada

X17

Tidak ada

X11

7

X18

7,84

X12

90

X19

22

Berdasarkan Tabel 1, dapat dikatakan bahwa observasi ke-7, ke-22 dan ke-90 muncul 2 kali sebagai kemungkinan outlier, masing-masing pada variabel X11 (Product Line) dan X18 (Delivery Speed) untuk observasi ke-7 serta X7 (E-commerce Activities/Web Site) dan X12 (Salesforce Image) untuk observasi ke-90. Selain itu, observasi ke-22 mengindikasikan bahwa scatterplot akan turut terpengaruh kemungkinan outlier sebab observasi ini berada di luar selang pada variabel X7 dan X19 (Satisfaction), dimana variabel X19 merupakan variabel dependen pada data HBAT. Jika ditelusuri lebih jauh, observasi ke-7 cenderung memberikan nilai yang jauh lebih rendah pada ragam produk (X11) dan kecepatan pengiriman (X18) ketimbang observasi lainnya. Sementara, observasi ke-22 dan ke-90 cenderung memberikan nilai yang jauh lebih tinggi untuk variabel yang sebelumnya sudah terindikasi dipengaruhi kemungkinan outlier. Dengan demikian, keberadaan outlier pada observasi ke-22 dan ke-90 sebetulnya tidak perlu dicemaskan karena nilai yang tinggi mengindikasikan bahwa aktivitas perusahaan dinilai baik oleh responden/konsumen. Meski demikian, kecermatan dalam mengidentifikasi outlier pada metode bivariat dan multivariat tetap diperlukan, khususnya untuk 3 observasi ini.

Salah satu alternatif untuk mengidentifikasi outlier dengan metode univariat adalah dengan membuat box plot. Gambar 1 berikut merupakan box plot untuk 3 variabel yaitu X6, X7 dan X18.

merupakan box plot untuk 3 variabel yaitu X6, X7 dan X18. Gambar 1. Box Plot X6,

Gambar 1. Box Plot X6, X7, dan X18

Berdasarkan Gambar 1, diindikasikan bahwa terdapat 5 observasi yang memiliki nilai di atas kuartil 3 pada variabel X7 (aktivitas e-dagang), sementara hanya 1 observasi yang memiliki nilai di bawah kuartil 1 pada variabel X16 (kecepatan pengiriman). Dengan kata lain, beberapa responden memiliki penilaian yang sangat baik untuk aktivitas dagang perusahaan di media elektronik, meski ada pula responden yang nampaknya tidak puas dengan kecepatan pengiriman produk selama ini. Berikut ini merupakan summary observasi yang berada di luar kuartil untuk tiap 14 variabel.

Tabel 2. Observasi yang Berada di Luar Kuartil

Variabel

Observasi yang keluar

Variabel

Observasi yang keluar

X6

Tidak ada

X13

Tidak ada

X7

13,22,43,44,57,90

X14

Tidak ada

X8

Tidak ada

X15

Tidak ada

X9

Tidak ada

X16

24, 48, 84, 92

X10

Tidak ada

X17

Tidak ada

X11

Tidak ada

X18

84

X12

22,44,90

X19

Tidak ada

Berdasarkan Tabel 2, terdapat beberapa observasi yang muncul di dua variabel, salah satunya adalah observasi ke-84. Artinya, dua metode yang digunakan dapat memberikan gambaran yang berbeda, sehingga diperlukan pengidentifikasian outlier dari aspek bivariat dan multivariat untuk lebih menguatkan pengambilan keputusan terkait outlier.

b. Metode bivariat

X 6

Untuk deteksi outlier dengan bivariat, maka dua teknik yang digunakan adalah dengan scatter plot beserta selang kepercayaan elips dan marginal plot. Marginal plot merupakan suatu alat bantu visual yang disarankan dalam Johnson dan Wichern (2007) dimana observasi yang “terisolasi” dari observasi lainnya akan terlihat relatif jelas, meski pengidentifikasian secara visual seringkali bersifat subjektif. Berbeda dari marginal plot, scatter plot yang dilengkapi dengan interval kepercayaan pada tingkat signifikansi tertentu dapat memudahkan proses identifikasi observasi mana saja yang keluar dari selang (kemungkinan outlier).

6 10 9 5 8 4 7 3 6 5 2 4 5 6 7
6
10
9
5
8
4
7
3
6
5
2
4
5
6
7
8
9
10
4
5
6
7
8
9
10
X 1 9
X 1 9
X 7

Gambar 2. Marginal Plot antara Variabel Independen dan Dependen

Gambar 2 mengindikasikan bahwa terdapat beberapa observasi yang posisinya terisolasi dari observasi lainnya (titik berwarna merah), seperti observasi ke-22 pada marginal plot sebelah kiri. Namun, untuk mengatakan observasi tersebut sebagai outlier masih terlalu dini sebab tampilan secara visual sebaiknya dilengkapi dengan sebuah tools yang memperkuat pernyataan misalnya selang kepercayaan.

yang memperkuat pernyataan misalnya selang kepercayaan. Gambar 3. Scatter Plot dengan Interval Kepercayaan Elips
yang memperkuat pernyataan misalnya selang kepercayaan. Gambar 3. Scatter Plot dengan Interval Kepercayaan Elips

Gambar 3. Scatter Plot dengan Interval Kepercayaan Elips 95%

Gambar 3 merupakan representasi scatter plot untuk variabel X6 (Quality Product) dan X19 (Satisfaction) dan X7 (E-commerce Activities) dan X19 (Satisfaction) dengan X19 sebagai variabel dependen berada di sumbu X. Gambar 3 mengindikasikan bahwa terdapat

lebih dari satu observasi yang dicurigai sebagai outlier di tiap scatter plot. Pada scatter plot X6 dan X19, terdapat dua observasi, yaitu observasi 44 dan 90, yang tidak berada di dalam selang kepercayaan 95%. Hal ini kemungkinan disebabkan oleh inkonsistensi hubungan yang terjadi antara kualitas produk dan kepuasan. Para responden ke-44 dan 90 menilai produk tidak cukup berkualitas, namun justru puas dengan kinerja perusahaan. Sementara itu, terdapat lima observasi yang berada di luar selang kepercayaan 95% untuk scatter plot X7 dan X19, yaitu observasi ke-13, 22, 24, 53 dan 90. Dari kelima observasi, dapat dikatakan bahwa observasi ke-13, 22 dan 90 sebenarnya outlier yang “positif” sebab para responden ini menilai kinerja dagang perusahaan di media elektronik sangat memuaskan mereka, sementara inkonsistensi justru ditunjukkan oleh responden ke-24 dan 53 yang menyatakan kinerja perusahaan relatif baik, namun tidak dengan aktivitas e- dagang perusahaan. Dengan variabel independen sejumlah 13, maka scatter plot yang terbentuk adalah sebanyak 13 sehingga pembuatannya cukup memakan waktu, terutama untuk scatter plot yang dilengkapi dengan interval kepercayaan sebab tidak banyak software yang khusus menyediakan keduanya dalam satu paket. Tabel 3 berikut merupakan summary observasi yang berada di luar interval kepercayaan 95%.

Tabel 3. Observasi yang Berada di Luar Interval Kepercayaan 95%

Variabel Dependen X19 dengan:

 

X6

44, 90

X13

22,57

X7

13, 22, 24, 53, 90

X14

22, 77, 84

X8

22, 87

X15

6, 22, 53

X9

2, 22, 45, 52

X16

22, 24, 48, 62, 92

X10

22, 24, 85

X17

22

X11

2, 7, 22, 45

X18

2, 7, 22, 84

X12

22, 44, 90

   

Berdasarkan Tabel 3, dapat dikatakan bahwa terdapat beberapa observasi yang frekuensinya berada di luar interval kepercayaan 95% melebihi 1 kali, diantaranya observasi ke-24 dan 90 bahkan observasi ke-22 hampir selalu berada di luar interval. Hal ini memberikan gambaran bahwa kemungkinan observasi ini sebagai outlier yang membuat karakteristik responden menjadi beragam. Bahkan setelah ditelusuri, penyebab observasi ini berada di luar interval karena responden ini sangat puas dengan kinerja perusahaan dari sebagian besar aspek dimana kepuasan yang ia tunjukkan jauh melebihi responden lainnya. Selain itu, observasi ke-22 juga dicurigai sebagai outlier pada teknik univariat sebelumnya. Jadi, observasi semacam ini perlu untuk dicermati kembali. Meski demikian, identifikasi outlier dengan teknik bivariat masih perlu dilengkapi dengan teknik multivariat sebab teknik bivariat yang hanya menilai hubungan antar 2 variabel saja. Dengan mengidentifikasi outlier

berdasarkan aspek multivariat, maka hubungan antar 14 variabel menjadi relatif lebih mudah untuk ditinjau.

c. Metode multivariat Metode ini menjadi penentu apakah observasi yang sebelumnya teridentifikasi sebagai outlier akan kembali muncul sebagai outlier dari aspek multivariat. Metode ini menganalisis posisi tiap observasi dan membandingkannya dengan rataan seluruh observasi pada 13 variabel independen yang digunakan pada contoh ini. Perhitungan nilai D 2 /df (df sebesar 13) memungkinkan untuk dilakukannya pengujian secara statistik. Karena sampel yang digunakan sebanyak 100 observasi, maka ambang batas yang digunakan adalah 2,5 alih-alih 3 atau 4 seperti yang lazim digunakan untuk kasus sampel besar.

4 seperti yang lazim digunakan untuk kasus sampel besar. Gambar 4. Observasi yang Berada di Dalam

Gambar 4. Observasi yang Berada di Dalam dan Luar Threshold 2,5

Gambar 4 mengindikasikan 2 observasi, yaitu observasi ke-36 dan 98, berada di luar threshold 2,5 yang mengindikasikan observasi ini sebagai outlier dari aspek multivariat. Padahal, kedua observasi ini tidak teridentifikasi sebagai outlier pada analisis sebelumnya. Hal ini menunjukkan tidak adanya jaminan bahwa outlier yang teridentifikasi pada aspek univariat dan bivariat juga akan muncul sebagai outlier pada aspek multivariat.

Keputusan Mempertahankan atau Mengeliminasi Outlier:

Dari 3 analisis, dapat disimpulkan bahwa tidak ditemukan observasi yang menunjukkan gejala penyimpangan yang sangat tidak wajar. Meski beberapa teridentifikasi sebagai outlier, namun hal tersebut justru menunjukkan keragaman karakteristik terlebih jika mengingat jumlah sampel yang diteliti. Meski demikian, kehati-hatian peneliti tetap diperlukan terutama pada analisis lanjutan yang menggunakan metode lebih kompleks (misal PCA atau analisis cluster) sebab kemungkinan outlier tersebut mempengaruhi hasil analisis akan tetap ada.