Arlandionurfauzi (078) Dianrizky
Arlandionurfauzi (078) Dianrizky
Kata kunci — Data, Kebakaran Hutan , Missing Value, Normal, II. TINJAUAN PUSTAKA
Pencilan. A. Missing value
I. PENDAHULUAN Missing value adalah hilangnya informasi atau data
pada sebuah kasus (subjek). Data hilang dapat terjadi
Dewasa ini, banyak terjadi bencana di sekitar kita. Baik karena informasi yang dibutuhkan pada satu atau
itu bencana yang disebabkan oleh manusia maupun yang beberapa variabel tidak diberikan, sulit dicari atau
terjadi secara alami. Salah satu bencana yang terjadi di memang informasi tersebut tidak tersedia.
Indonesia belakangan ini adalah kebakaran hutan. a. Mekanisme Missing Value
Kebakaran itu menimbulkan banyak dampak diantaranya Terdapat tiga mekanisme missing value yaitu:
adalah asap tebal yang mengganggu sistem pernapasan dan 1) Missing Completely at Random (MCAR)
penglihatan. Penyebab terjadinya kebakaran hutan sendiri Sebagai contoh, jika data hilang ditentukan oleh
bisa dikarenakan ulah manusia atau dikarenakan penyebab sebuah koin, maka mekanisme data hilangnya
alami. Ada beberapa variabel yang mempengaruhi adalah MCAR.
terjadinya kebakaran hutan secara alami diantaranya adalah 2) Missing at Random (MAR)
tingkat curah hujan, kecepatan angin, tingkat temperature Sebagai contoh, pada responden perempuan
(Paulo Cortez, 2008)[1]. menolak untuk menjawab pertanyaan tentang berat
Untuk mencegah terjadinya kebakaran hutan, dilakukan badan atau tinggi badan.
pengecekan berkala terhadap beberapa variabel yang dapat 3) Missing Nonignorable at Random (MNAR)
memicu terjadinya kebakaran hutan. Selain itu, dicatat juga Contohnya seseorang tidak menjawab karena
beberapa indeks yang didasari oleh Canadian Forest Fire pendapatan yang diperoleh sangat rendah.
Weather Index (FWI) system. Beberapa indeks yang diukur
tersebut merupakan komponen yang memperhitungkan efek
kelembaban dan bahan bakar pada api (Anonim, 2008)[2].
2
b. Listwise Keterangan :
Listwise adalah teknik yang paling umum untuk dj = mahalanobis distance
menangani missing value (Peugh & Enders, 2004)[4]. 𝑋𝑗 − 𝑋̅ = vektor transpose
Penting memhami bahwa dalam sebagian besar kasus, S = Matriks kovarians
asumsi penting untuk menggunakan salah satu dari teknik Hasil tersebut akan di evaluasi, jika terdapat nilai kurang
ini adalah bahwa Missing Nonignorable at Random dari 0,001 maka observasi tersebut dikatakan multivariate
(MCAR). Dengan kata lain, peneliti harus mendukung outlier.
bahwa probabilitas data yang hilang pada variabel
dependen mereka tidak berhubungan dengan variabel C. Uji Normalitas
independen lainnya serta variabel dependen sendiri. Tujuan dari uji normalitas adalah untuk mengetahui
Teknik listwise menambah semua data untuk kasus yang apakah distribusi sebuah data mengikuti atau mendekati
memiliki satu atau lebih missing value. distribusi normal, yakni distribusi data dengan bentuk
c. Pairwise lonceng. Data yang baik adalah data yang mempunyai pola
Pariwise merupakan teknik penambahan data yang seperti distribusi normal. Uji normilitas dibagi menjadi dua
berpasangan untuk meminimalkan kerugian yang terjadi uji normalitas univariate dan multivariate.
dalam penghapusan listwise dengan menggunakan matriks a. Normal Univariate
korelasi. Korelasi mengukur kekuatan hubungan antara Distribusi normal adalah distribusi normal yang
dua variabel. Untuk setiap pasangan variabel dimana data memiliki rata-rata nol dan simpangan baku satu. Distribusi
tersedia, koefisien korelasi akan memperhitungkan data ini juga dijuluki kurva lonceng (bell curve) karena
tersebut. Dengan demikian, penghapusan berpasangan grafik fungsi kepekatan probabilitasnya mirip dengan
memaksimalkan semua data yang tersedia (Hawkins, bentuk lonceng. Pengujian normal secara univariate dapat
1980)[6]. dilakukan dengan uji Kolmogorov Smirnov.
1. Uji Kolmogorov Smirnov
B. Outlier Uji Kolmogorov-Smirnov biasa digunakan untuk
Outlier adalah data yang secara signifikan berbeda dari memutuskan jika sampel berasal dari populasi dengan
data lainnya yang ada (Hawkins, 1980). Outlier dapat
distribusi tertentu juga digunakan untuk
ditemukan antara situasi univariate dan multivariate.
menguji ‘goodness of fit‘ antar distribusi sampel dan
a. Outlier Univariate
distribusi lainnya, Uji ini membandingkan serangkaian
Deteksi terhadap ada tidaknya univariate outlier dapat
data pada sampel terhadap distribusi normal serangkaian
dilakukan dengan menentukan nilai ambang batas yang
akan dikategorikan sebagai outlier dengan cara nilai dengan mean dan standar deviasi yang sama.
mengkonversi nilai data penelitian ke dalam standard Singkatnya uji ini dilakukan.
score atau z-score. (Hair, 1995)[3]. Observasi data yang b. Normal Mutivariate
memiliki nilai z-score ≥ ± 3,0 akan dikategorikan sebagai Normal multvariate merupakan suatu distribusi yang
univariate outlier. Rumus untuk mengkonversikan data diperoleh dari perluasan distribusi normal univariate.
menjadi z-score adalah sebagai berikut. Beerikut adalah hipotesis untuk uji normal multivariat,
𝑋 −𝜇
𝑧 − 𝑠𝑐𝑜𝑟𝑒 = 𝑖 (1) - Hipotesis
𝜎
Keterangan : H0:Data mengikuti sebaran distribusi
x = variabel independent normal multivariate.
i = observasi ke , i= 1,2,3, … H1 :Data tidak mengikuti sebaran distribusi
𝜇 = rata-rata hasil obervasi variabel x normal multivariate.
𝜎 = standart deviasi hasil obervasi variabel x. - Statistik uji
b. Outlier Multivariate 𝑑𝑗 2 = (𝑋𝑗 − 𝑋̅)′𝑆 −1 (𝑋𝑗 − 𝑋̅) (2.5)
Evaluasi terhadap multivariate outlier perlu dilakukan Keterangan :
karena walaupun data yang dianalisis menunjukkan tidak dj = mahalanobis distance
ada outlier pada tingkat univariate, namun observasi- 𝑋𝑗 − 𝑋̅ = vektor transpose
observasi tersebut dapat menjadi outlier bila sudah S = Matriks kovarians
dikombinasikan. Jarak mahalanobis (The Mahalanobis - Keputusan
2
Distance) untuk tiap-tiap observasi dapat dihitung dan Tolak H0 jika dj2 > 𝑋(𝑝,0.5) , dimana p adalah banyaknya
akan menunjukkan jarak sebuah observasi dari rata-rata variabel independen.
semua variabel dalam sebuah ruang multidimensional
(Ferdinand, 2000)[5]. D. Fire Weather Index
Evaluasi multivariate outlier dengan cara deteksi Fire Weather Index (FWI) atau indeks cuaca kebakaran
outlier dari hasil scatter plot dan dengan bantuan software pada hutan adalah sistem Canada dalam tingkat bahaya
SPSS. Evaluasi dengan scatter plot dikatakatan terdapat kebakaran. Terdapat beberapa komponen dalam penentuan
outlier jika terlihat nilai z data bernilai diatas 3. Sementara indeks tersebut. Komponen tersebut adalah FFMC, DMC,
dari hasil SPSS akan diperoleh jarak mahalonobis DC, ISI, dan BUI. FFMC atau Fine Fuel Moisture Code
berdasarakan chi-square pada derajat bebas sebesar jumlah menunjukkn kadar air permukaan sampah yang
variabel independen pada tingkat p <0,001 (tergantung mempengaruhi munculnya api dan penyebaran api. DMC
peneliti). Jarak mahalonobis dapat dihitung dengan rumus atau Duff Moisture Code dan DC atau Drought Code
sebagai berikut. mewakili kadar air dari lapisan organik baik dangkal atau
𝑑𝑗 2 = (𝑋𝑗 − 𝑋̅)′𝑆 −1 (𝑋𝑗 − 𝑋̅) (2) dalam yang bisa mempengaruhi intensitas kebakaran.
Sementara ISI atau Initial Spread Index adalah skore
3
kecepatan menyebarnya suatu kebakaran. Dan BUI atau Untuk mengisi missing value pada data, dapat
Buildup Index merupakan jumlah bahan bakar yang menggunakan Tabel 3 yaitu output dari listwise. Untuk
tersedia (Anonim, 2008)[2]. tahap selanjutnya, kami menggunakan pairwise karena
Indeks FWI menjadi indikator intensitas kebakaran. pada listwise pengisian missing value hanya dengan
Meskipun skala yang digunakan berbeda-beda, nilai-nilai listwise measn saja tanpa melihat korelasi antar variabel-
yang tinggi menunjukkan kondisi kebakaran yang semakin variabel nya sehingga kurang representatif terhadap
parah. Penyebab terjadinya kebakaran hutan dan luasan variabel.
area yang terjadi kebakaran dapat diindikasi dengan indeks b. Pairwise
FWI dan faktor lainnya seperti suhu udara, kecepatan Dengan menggunakan pairwise maka untuk mengisi
angina, dan hujan (Paulo Cortez, 2008)[1]. missing value berdasarkan tabel pairwise means pada
Tabel 4 dengan melihat pairwise correlations variabel nya
III. . METODELOGI PENELITIAN pada Tabel 5. Pada data ke-3, terdapat 3 variabel missing
A. Sumber Data value, yaitu pada variabel FFMC dan DC.. Pertama akan
Sumber data yang digunakan dalam laporan ini adalah mengisi data pada FFMC dengan melihat korelasi antara
data sekunder yang diperoleh dari UCI Data Sets yaitu data FFMC dengan DC pada pairwise correlations.
Forest Fires tahun 2008. Sampel data pada Forest Fires Tabel 4. Pairwise Mean
sebanyak 200 data. FFMC DMC DC Temperature
B. Variabel Penelitian FFMC 91,1236 115,9312 526,1026 18,3184
Variabel penelitian yang digunakan ditunjukkan pada DMC 91,0236 114,8483 522,3050 18,3584
Tabel 1 sebagai berikut. DC 91,1128 114,1321 530,5352 18,7575
Tabel 1. Variabel Penelitian Temperatur 91,1236 114,8483 530,5352 18,5410
No Variabel Deskripsi
1 X1 FFMC (The Fuel Fine Moisture Code). Tabel 5. Pairwise Correlations
2 X2 DMC (The Duff Moisture Code)
3 X3 DC (The Drought Code) FFMC DMC DC Temperature
4 X4 Temperatur atau suhu dalam celciu FFMC 1
5 Y Area hutan yang terbakar dalam ha. DMC ,141 1
C. Langkah Analisis DC ,067 ,009 1
Langkah analisis pada pembuatan laporan ini adalah: Temperature -,043 ,074 -,037 1
1. Melakukan input data yang telah didapat.
2. Melakukan deteksi missing value. Lalu dengan melihat Tabel 4, nilai FFMC dengan DC
3. Melakukan imputasi missing value. yaitu 91,0236. Untuk mengisi data pada DC dengan
4. Melakukan deteksi outlier secara univariate. melihat kolom DC dengan baris DC yaitu 114,8483.
5. Melakukan deteksi outlier secara multivariate. Begitu seterusnya hingga data tidak terdapat missing value.
6. Melakukan identifikasi dan pengujian normal B. Outlier
univariate. a. Univariate
7. Melakukan identifikasi dan pengujian normal secara Untuk mengetahui apakah terdapat outlier pada
multivariate. variabel Y dapat menggunakan standardized value. Jika
8. Interpretasi data standardize value (|Z|) > 3 pada minimal n=100 maka
9. Membuat kesimpulan terdapat outlier. Dengan menggunakan software SPSS
dapat diketahui standardize value pada variabel Y. Hasil
IV. ANALISIS DAN PEMBAHASAN dari output SPSS dengan |Z| > 3 yang ditampilkan dalam
A. Missing Value Tabel 6.
Total missing value pada tiap variabel dapat Tabel 6 Data Outlier Univariate
diketahui degan software SPSS dan ditampilkan dalam Data ke- Zarea
Tabel 2. 1 -0,30927
Tabel 2. Total Missing Value
2 -0,30927
Missing
Count Percent 3 -0,30927
FFMC 26 13,0 6 -0,30927
DMC 22 11,0 : :
DC 21 10,5
Temperature 0 ,0 191 3,80431
192 -0,30927
Dalam mengisi value terdapat berbagai cara agar
data tidak menghasilkan missing value 197 -0,30927
a. Listwise
Tabel 3. Listwise Means b. Multivariate
Number of Pada kasus multivariate, agar dapat mendeteksi outlier
cases FFMC DMC DC Temperature maka digunakan mahalanobis dengan variabel dependent
141 91,0383 114,7681 522,2418 18,3270 adalah Y dan variabel independent adalah X1 – X4.
Dengan menggunakan software SPSS dapat maka didapat
4